主要的电脑厂商可以故意在程序中设置漏洞,以测试工厂的反应水平。通过故意关闭关键的生产设施,来验证备用系统和冗余设计的:际工作状况。当系统正在上线工作,为真正的客户生产,这样做似乎有!危险,尽管如此,这是唯一能够测试巨大而复杂的系统的方法。小范围测试和模拟反映不出系统的复杂性、抗压水平,以及比拟真实系统故障意外事件。
埃里克·霍纳格尔( Erik Hollnagel)、戴维·伍兹(David Woods)南希·莱维森( Nancy Leveson)是这个主题一系列有影响力的书的作者他们娴熟地总结如下:
修补回复工程是安全管理的范例之一,关注于帮助人们在压下成功应付复杂的环境以取得成功。它与现在典型的模式有巨大异——将差错列成表格,好似一件事情,然后干预并降低其数量实施修补回复工程的组织将安全视为核心价值,而不是可以清算商品。实际上,在没有发生安全事件时才能看到安全的影子!不要回顾过去的成功案例作为分配时间和精力的理由,实施修补工程的组织要持续关注于预测故障的潜在变化,因为他们深知自关于事故的知识仍有欠缺,而且周围环境在不断改变。对修补回工程的一个评价是预见的能力,即在故障和损伤发生前,预测风 的形势变化。(摘录已得出版方许可,埃里克·霍纳格尔、戴维·兹、南希·莱维森,2006年。)
自动化的悖论
机器正越来越聪明。越来越多的工作可以完全自动化。随之而来一种倾向,认为很多与人类控制相关的困难就要消失了。纵观全球,交通事故每年造成数百万人伤亡。当我们最后广泛使用自动驾驶汽事故和伤亡概率将可能令人吃惊地大幅下降,仅仅由于自动化技术在工厂和航空领域增加了效率,同时降低了差错和伤残率。
当自动化系统工作正常时,好极了,但当它出了故障,其结果通常无法预计,也许会非常危险。如今,相较于没有电力供应以前的家庭和商业,基于自动化和网络运行的电气设备极大地减少了工作时间。但是电网停止运行,也将影响大批的用户,需要很多天系统才能修复。使用自动驾驶汽车,我预言会产生更少的事故和伤残。但如果出了事故,将会是大事故。
自动化技术越来越强大。自动化系统能够接手以前需要人来完成的工作。汽车的自动驾驶系统不仅仅维持舒适的温度,自动驾驶可以让汽车行驶在指定的车道,并与前车保持适当的距离。自动驾驶系统可以让飞机从起飞到着陆自己飞行,或者让船只自己航行。当使用自动化系统时,工作完成得比人还好。此外,它将人从枯燥乏味、令人厌烦的日常工作中解放出来,可以更加高效地利用时间,减少疲劳和差错。但如果任务太复杂,自动化系统便应付不来。当然,此时往往却是最需要它们的时候。自动化的悖论就是能够执行那些枯燥乏味、令人厌烦的工作,但是不能做太复杂的工作。
当自动化系统发生故障,经常没有警告。我在自己的其他书和很多论文里非常详细地梳理过这种状况,很多在安全与自动化领域的人都有同感。当发生故障时,人“在系统环路之外”。这意味着人没有太注意系统的运转情况,人们需要一些时间才能注意到故障,评价分析,然后决定如何处置。
在飞机上,当自动驾驶失效,飞行员通常有相当长的时间了解状况并做出反应。飞机飞得很高:地面上空一万米(6英里),所以即使飞机开始下降,飞行员还有几分钟做出反应。此外,机组都受过很好的培训。但当汽车的自动驾驶失效,司机恐怕只有几分之一秒来避免发生事故。即使对于多数熟练的司机,这都非常困难,更何况很多司机并在另外一些状况下,诸如船只,会有更多时间做出反应,但经注意到自动驾驶发生故障。有一个戏剧性的案例,在1997年,下”号搁浅。故障持续数日,只是在事故发生后才发现问题,那经触礁,造成数百万美元的损失。到底发生了什么?通常由全球 GPS)确定船的位置,但是将卫星天线连接到导航系统的线缆不开了(没有人知道是如何断开的),结果,导航系统自动从使用转入到“死循环”,即使用估算的速度和航行的方向来给轮船定设计导航系统时没有将这个模式显示出来。结果,当轮船从百豢的地波士顿时,太偏向南方,搁浅在科德角(Cape Cod,波士蛔突出的一个半岛)。自动导航几年来都工作得毫无瑕疵,人们信它,所以没有人对它进行正常的人工定位,或者仔细分辨显示烈[细小的字母“dr”代表“dead reckoning”船只定位故障模式]。
严重的功能状态失效。应对差错的设计原则