技术开发 频道

灾难总是近在咫尺 复杂系统故障面面观

  系统内的从业人员一边操纵系统从事生产,一边防范事故的发生。系统运转过程中的这一动态特质,以及业务需求与故障滋生风险之间的矛盾是不可避免的。外界很少有人能够认识到这一角色的二重性。系统正常运转时,唱主角的是生产角色;事故发生后,主角则换成了故障防范角色。实际上,系统操作人员一直长期且持续地分饰二角,这一点往往为外界所误解。

  当事人的举动完全是在冒险

  事故发生之后,人们往往会认为早在事发之前导致事故的重大故障就已经在所难免,之所以最终会酿成事故,是因为当事人在故障迫近时处理失当或玩忽职守。但实际上,当事人在采取行动时完全是在冒险,他们无法预知自己的行动会导致什么后果。其中的不确定性在程度上时有不同。当事人的冒险行为在事故之后体现得尤为明显;灾后分析通常都不会将这些行为判作明智之举。反过来看:即便处理得当,也不过是瞎猫碰上死老鼠,无法得到广泛认同。

  风口浪尖上的行为令一切模糊性消失殆尽

  各种组织机构都存在一定的模糊性,而且这种模糊性往往是蓄意造成的,它体现在生产目标、资源使用效率、运作成本,以及对不同程度的潜在事故的容忍度等多个方面。然而在评判那些被抛至风口浪尖的从业人员的行为时,这些模糊性却消失殆尽。发生事故之后,当事人的行为往往会被视为“失误”或“违规”,但这类评判带有严重的事后成见,往往无视业绩压力等其他诱因。

  从业人员会对复杂系统进行调整

  从业人员及一线管理者会积极调整系统,一边扩大产值一边减少事故。这种调整每时每刻都在进行,包括:(1)系统重组,避免脆弱部件遭遇故障。(2)集中稀缺资源,应对关键需求。(3)留出后路,用以规避或修复各种可预期及不可预期的故障。(4)针对系统性能的变化建立各种早期检测手段以妥善紧缩生产规模,或通过其他手段提高系统的恢复能力。

  复杂系统中的专业人才不断更替

  运作和管理复杂系统需要大量专业人才。迫于技术革新的压力,同时也为了填补人才流动所致的空缺,从业人员的专业知识必须不断更新。无论出于什么目的,技能和专业知识的培训和锻炼都应该成为系统自身的职能之一。由此可见,复杂系统中时刻存在着身怀不同程度的专业知识的从业人员和受训人员。有关专业知识的关键问题主要表现在(1)对能够胜任最困难、最艰巨的生产任务的稀缺专业人才资源的需求,以及(2)为了应对未来需求而进行的技术储备。

  变化会引入新的故障

  在可靠性较高的系统中,重大事故的发生频率较低,这使得人们更乐于接受变化,尤其是以减少影响较小的频发性故障为目的引入新技术。然而这些变化有可能会引入新的、后果严重的偶发性故障。在应用新技术清除已知的系统故障或追求更高的性能的同时,往往会埋下可能引发新的大规模灾难性故障的隐患。不少情况下,比起采用新技术清除掉的那些故障,这些新的、罕见的灾难性事故所造成的影响甚至更加恶劣。事发之前很难发现这些新型故障;人们的注意力大都集中到设想中的借由变化带来的收益上去了。由于这类新的恶性事故发生的频率很低,事发之前系统可能已经经历过多次变更,加大了识别事故的技术原因的难度。

  抵御未来事件的效果受限于人们看待“肇因”的方式

  发生事故之后,为了防范事故中的“人为失误”,人们通常会想方设法阻断各种可能“导致”事故的事件。这种做法治标不治本,在事故防范方面起到的作用十分有限。实际上,由于潜在故障的模式不断地发生变化,相同事故重复发生的概率非常低。这类事后防范措施往往难以起到增强安全性的作用,反而还会加重系统的耦合性和复杂性。这么做不仅会催生更多潜在故障,而且还会加剧事故的排查难度。

  安全性是系统整体的特性,而不是系统中各部件的特性

  安全性是系统的自发属性;它不是独立的个人、设备、组织中的某个部门或系统所能决定的。安全性无法通过购买或生产途径获取;它无法脱离系统中的其他组件而独立存在。因此人们无法像加工原材料那样加工安全性。无论何时,安全性在任何系统中都是动态的;系统自身持续不断的变化必然导致灾难性故障及其应对方式发生相应的变化。

  人们持续不断地营造安全的环境

  无故障运营的背后凝结着人们付出的种种努力,他们想方设法将系统的性能波动控制在可承受范围内。这些努力中的一大部分原本就是日常运维工作的一部分,相当直截了当。然而系统的运转过程从来都不是一帆风顺的,迫于周遭条件的变化,从业人员必须及时采取措施,不断营造安全的环境。这些措施通常都出自一组经过充分演练的对策集;但有时也会出现新颖的策略组合或完全创新的解决方案。

  无故障运营需要故障处理相关的经验

  只有真刀真枪地处理过故障的人才能识别出灾难性故障,并成功地将系统的性能波动维系在可承受范围之内。如果运维人员充分重视系统的极限情况,系统的表现往往就会更加稳定。一旦被逼入极限情况,系统的表现便开始恶化,变得捉摸不定,或是难以恢复稳定。对于具有内在高风险性的系统,运维人员应当以把控系统整体运作情况为主,正确认识到事故的必然性并予以重视。安全性的提升离不开对意外事故有正确认识的运维人员;同时,运维人员也必须清楚地认识到自己采取的措施会如何影响系统,如何令系统逼近或远离极限情况。

0
相关文章