How Complex Systems Fail

원문은 Richard I. Cook의 원 글을 확인해주세요.

Richard I. Cook, MD
Cognitive Technologies Labratory
University of Chicago

1. 복잡한 시스템은 본질적으로 위험한 시스템이다

운송, 의료, 발전처럼 우리가 중요하게 다루는 대부분의 시스템은 그 자체의 성격상 본질적으로, 그리고 피할 수 없이 위험합니다. 위험에 노출되는 빈도를 어느 정도 줄이는 일은 가능할 수 있지만, 시스템을 구성하는 과정 자체는 본래 위험하며 더 이상 단순화하거나 제거할 수 없는 성격을 지닙니다. 이런 위험이 존재하기 때문에, 이러한 시스템은 위험을 방어하기 위한 장치와 관행을 발전시켜 왔습니다.

2. 복잡한 시스템은 실패에 대해 두텁고도 성공적으로 방어되고 있다

실패의 결과가 매우 크기 때문에, 시간이 지나면서 실패를 막기 위한 여러 겹의 방어층이 만들어집니다. 여기에는 백업 시스템이나 장비의 ‘안전’ 기능 같은 기술적 요소가 있고, 훈련과 지식 같은 인간적 요소도 있으며, 정책과 절차, 인증, 작업 규칙, 팀 훈련 같은 조직적·제도적·규제적 방어 장치도 포함됩니다. 이런 장치들의 효과는, 평소에는 운영이 사고 쪽으로 흘러가지 않도록 여러 겹의 방패를 제공하는 데 있습니다.

3. 대형 재난은 여러 실패를 필요로 한다. 단일 실패 지점만으로는 충분하지 않다

이런 방어 체계는 실제로 작동합니다. 시스템 운영은 대체로 성공적입니다. 겉으로 드러나는 대형 실패는, 작고 겉보기에는 무해한 실패들이 결합해 시스템 차원의 사고가 일어날 기회를 만들 때 발생합니다. 각각의 작은 실패는 재난을 일으키는 데 필요하지만, 오직 그것들이 함께 결합될 때에만 실패가 실제로 가능해집니다.

다르게 말하면, 시스템에는 눈에 보이는 사고보다 훨씬 더 많은 실패의 기회가 존재합니다. 대부분의 초기 실패 경로는 설계된 안전 구성요소에 의해 차단됩니다. 그리고 실제 운영 수준까지 도달하는 경로 역시 대개는 현장의 실무자들에 의해 막힙니다.

4. 복잡한 시스템 내부에는 계속 바뀌는 잠재적 실패의 조합이 존재한다

이런 시스템은 너무 복잡하기 때문에, 내부에 여러 결함이 존재하지 않는 상태로 운영되는 것이 사실상 불가능합니다. 각각의 결함은 그 자체만으로는 실패를 일으키기에 충분하지 않으므로, 운영 중에는 대체로 사소한 요소로 취급됩니다. 모든 잠재적 실패를 제거하지 못하는 이유는 주로 경제적 비용 때문이지만, 사전에 그러한 실패가 어떻게 사고에 기여할지를 알아보기 어렵다는 점도 큰 이유입니다.

이 잠재적 실패들은 기술의 변화, 작업 조직의 변화, 실패를 제거하려는 노력 때문에 끊임없이 달라집니다.

5. 복잡한 시스템은 성능이 저하된 상태로 운영된다

앞선 논의의 자연스러운 귀결은, 복잡한 시스템은 어느 정도 망가진 상태로 운영된다는 점입니다. 시스템 안에는 수많은 중복 장치가 있고, 또 사람들은 많은 결함이 존재하는 상황에서도 시스템을 돌아가게 만들 수 있기 때문에 시스템은 계속 기능합니다.

사고를 검토하고 나면, 거의 예외 없이 시스템이 과거에도 재난으로 이어질 뻔한 ‘준사고(proto-accident)’의 이력을 갖고 있었다는 사실이 드러납니다. 이런 성능 저하 상태가 눈에 띄는 사고가 일어나기 전에 인지되었어야 한다고 주장하는 경우가 많지만, 그런 주장은 대개 시스템 성능을 지나치게 순진하게 이해한 데서 나옵니다. 실제 시스템 운영은 동적이며, 조직적·인간적·기술적 구성요소는 계속 실패하고 또 대체됩니다.

6. 재난은 언제나 바로 코앞에 있다

복잡한 시스템은 대형 재난으로 이어질 잠재력을 늘 품고 있습니다. 인간 실무자는 거의 항상 이런 잠재적 실패와 물리적으로도, 시간적으로도 매우 가까운 곳에 있습니다. 즉 재난은 언제든, 거의 어디서든 발생할 수 있습니다. 이런 대형 결과의 가능성 자체가 복잡한 시스템의 특징입니다.

이런 재난 가능성을 완전히 제거하는 것은 불가능합니다. 그러한 실패의 가능성은 시스템의 본성 자체로부터 늘 존재합니다.

7. 사고 이후 하나의 ‘근본 원인(root cause)’으로 귀속하는 것은 근본적으로 잘못됐다

겉으로 드러난 실패는 여러 결함이 함께 있어야만 일어나기 때문에, 사고에는 고립된 단일 ‘원인’이 존재하지 않습니다. 사고에는 여러 기여 요인이 있습니다. 이 각각의 요인은 그 자체만으로는 사고를 일으키기에 반드시 불충분합니다. 오직 이 요인들이 함께 작동할 때만 사고를 만들어내기에 충분해집니다.

실제로 사고에 필요한 조건을 만드는 것은, 이런 원인들이 서로 연결되는 방식입니다. 따라서 사고의 ‘근본 원인’을 따로 떼어내는 일은 불가능합니다. 이런 의미에서의 ‘근본 원인’에 기대는 평가는, 실패의 본질에 대한 기술적 이해를 반영한다기보다 결과에 대해 특정한 국지적 힘이나 사건에 책임을 돌리고 싶어 하는 사회적·문화적 욕구를 반영합니다.¹

8. 사후확증편향은 사고 이후 인간 수행을 평가하는 방식을 왜곡한다

결과를 이미 알고 있으면, 그 결과로 이어진 사건들이 당시 실무자에게도 실제보다 훨씬 더 두드러지게 보였어야 했다고 느끼게 됩니다. 그래서 사후적 사고 분석에서 인간 수행을 평가하면 부정확해집니다. 결과를 알고 있다는 사실 자체가, 사고 후 관찰자가 사고 이전 실무자들의 시야를 같은 조건으로 재구성하는 능력을 오염시킵니다.

그 결과 사람들은 실무자가 그 요인들을 ‘알았어야 했고’, 그것이 사고로 ‘필연적으로’ 이어질 것임을 알아챘어야 했다고 여기게 됩니다.² 사후확증편향은 특히 숙련된 인간 수행이 관련된 경우, 사고 조사에서 가장 큰 장애물로 남아 있습니다.

9. 인간 운영자는 두 가지 역할을 동시에 가진다. 생산자이면서 실패에 대한 방어자다

시스템의 실무자는 원하는 산출물을 생산하기 위해 시스템을 운영하는 동시에, 사고를 막기 위해서도 일합니다. 생산에 대한 요구와 초기 실패 가능성 사이의 균형을 맞추는 이런 동적인 운영 특성은 피할 수 없습니다. 외부인은 대개 이 이중성을 잘 인정하지 않습니다.

사고가 없는 평상시에는 생산자로서의 역할이 강조됩니다. 반면 사고가 발생한 뒤에는 실패를 방어하는 역할이 강조됩니다. 하지만 어느 경우든 외부인의 관점은 운영자가 이 두 역할에 늘 동시에 관여하고 있다는 점을 제대로 이해하지 못합니다.

10. 실무자의 모든 행동은 일종의 도박이다

사고가 발생하고 나면, 드러난 실패는 마치 피할 수 없었던 것처럼 보이고, 실무자의 행동은 실수나 명백한 위험을 고의로 무시한 행위처럼 보이기 쉽습니다. 그러나 실제로 실무자의 모든 행동은 도박입니다. 즉 불확실한 결과를 마주한 채 이루어지는 행위입니다. 그 불확실성의 정도는 순간순간 달라질 수 있습니다.

실무자의 행동이 도박이라는 점은 사고 뒤에는 비교적 분명해 보입니다. 보통 사후 분석은 그 도박을 좋지 않은 선택으로 평가합니다. 하지만 그 반대, 즉 성공적인 결과 또한 도박의 산물이라는 점은 널리 이해되지 않습니다.

11. 현장 최전선(sharp end)의 행동이 모든 모호함을 해소한다

조직은 생산 목표, 자원의 효율적 사용, 운영의 경제성과 비용, 그리고 크고 작은 사고에 대해 수용 가능한 위험 수준 사이의 관계를 종종 의도적으로 모호하게 둡니다. 이 모든 모호함은 시스템 최전선의 실무자가 실제로 내리는 행동을 통해 해소됩니다.

사고가 일어난 뒤에는 실무자의 행동이 ‘오류’나 ‘위반’으로 간주될 수 있지만, 이런 평가는 사후확증편향에 크게 물들어 있으며 다른 추진 요인들, 특히 생산 압력을 무시합니다.

12. 인간 실무자는 복잡한 시스템의 적응 가능한 요소다

실무자와 일선 관리자는 생산을 극대화하고 사고를 최소화하기 위해 시스템을 적극적으로 조정합니다. 이런 적응은 종종 매 순간 이루어집니다. 예를 들면 다음과 같습니다.

취약한 부분이 실패에 노출되는 정도를 줄이기 위해 시스템을 재구성한다.
높은 수요가 예상되는 영역에 핵심 자원을 집중한다.
예상된 결함과 예상하지 못한 결함 모두에 대해 후퇴하거나 복구할 수 있는 경로를 마련한다.
시스템 성능 변화의 조기 징후를 감지할 수단을 만들어, 생산을 부드럽게 줄이거나 다른 방식으로 회복탄력성을 높일 수 있게 한다.

13. 복잡한 시스템에서 인간의 전문성은 계속 변한다

복잡한 시스템은 운영과 관리에 상당한 수준의 인간 전문성을 필요로 합니다. 이 전문성은 기술이 바뀌면서 성격이 변하고, 떠나는 전문가를 대체해야 한다는 필요 때문에도 달라집니다. 어떤 경우든 훈련, 숙련의 정교화, 전문성의 향상은 시스템 자체 기능의 일부입니다.

따라서 어느 시점이든 하나의 복잡한 시스템 안에는 서로 다른 수준의 전문성을 가진 실무자와 훈련생이 함께 존재합니다. 전문성과 관련한 핵심 문제는 두 가지에서 나옵니다. 첫째, 부족한 전문성을 가장 어렵고 까다로운 생산 요구에 자원으로 투입해야 한다는 점입니다. 둘째, 미래를 위해 새로운 전문성을 길러야 한다는 점입니다.

14. 변화는 새로운 형태의 실패를 도입한다

신뢰성 높은 시스템에서 눈에 띄는 사고가 드물게 발생한다는 사실은, 특히 새로운 기술을 도입해 빈도는 높지만 결과는 상대적으로 작은 실패를 줄이려는 변화를 촉진할 수 있습니다. 하지만 이런 변화는 오히려 빈도는 낮지만 결과는 훨씬 더 큰 새로운 실패의 기회를 만들 수 있습니다.

잘 이해된 기존 실패를 제거하거나 매우 정밀한 성능을 얻기 위해 새로운 기술을 도입하면, 종종 대규모의 치명적 실패로 이어지는 새로운 경로가 생깁니다. 드물지 않게 이런 새로운 대형 재난은, 새 기술이 없앴던 사고들보다 더 큰 영향을 남깁니다.

이런 새로운 실패 양상은 사전에 발견하기 어렵습니다. 사람들의 관심은 대개 변화가 가져다줄 것으로 기대되는 이점에 집중되기 때문입니다. 또한 이런 고결과 사고는 빈도가 낮기 때문에, 실제 사고가 나기 전에 여러 시스템 변화가 겹쳐 일어나기 쉽고, 그 결과 기술 변화가 실패에 얼마나 기여했는지 보기가 더 어려워집니다.

15. ‘원인’에 대한 관점은 미래 사고에 대한 방어를 약화시킨다

사고 이후 ‘인적 오류’를 겨냥해 내놓는 대책은 보통 사고를 ‘유발할 수 있는’ 활동을 막는 데 초점을 둡니다. 하지만 이런 사슬의 맨 끝단 대책은 이후 사고 가능성을 거의 낮추지 못합니다. 사실 잠재적 실패의 패턴은 계속 바뀌기 때문에, 동일한 사고가 그대로 다시 일어날 가능성은 원래도 극히 낮습니다.

그런데 이런 사후 대책은 안전을 높이기보다 오히려 시스템의 결합도와 복잡성을 높이는 경우가 많습니다. 그 결과 잠재적 실패의 수는 더 많아지고, 사고 경로를 탐지하고 차단하는 일은 더 어려워집니다.

16. 안전은 구성요소의 속성이 아니라 시스템의 속성이다

안전은 시스템에서 창발하는 성질(emergent property)입니다. 안전은 개인이나 장치, 혹은 조직이나 시스템의 특정 부서 안에 따로 존재하지 않습니다. 안전은 구매하거나 제조할 수 있는 것이 아니며, 다른 구성요소와 분리된 별도 기능도 아닙니다. 다시 말해 안전은 원자재처럼 따로 조작할 수 있는 대상이 아닙니다.

어떤 시스템에서든 안전의 상태는 늘 동적입니다. 시스템 전체가 계속 변하기 때문에, 위험과 그것을 관리하는 방식 역시 끊임없이 달라집니다.

17. 사람은 안전을 끊임없이 만들어낸다

실패 없는 운영은, 시스템이 허용 가능한 성능 경계 안에 머물도록 애쓰는 사람들의 활동에서 나옵니다. 이런 활동은 대부분 정상 운영의 일부이며, 겉으로 보기에는 단순해 보입니다. 하지만 시스템 운영은 결코 문제 없이 흘러가지 않기 때문에, 변화하는 조건에 맞춰 인간 실무자가 수행하는 적응이 실제로는 순간순간 안전을 만들어냅니다.

이런 적응은 종종 이미 익숙하게 연습된 대응 집합에서 적절한 루틴 하나를 고르는 일처럼 보일 수 있습니다. 그러나 때로는 새로운 조합이거나, 완전히 새롭게 만들어낸 접근일 때도 있습니다.

18. 실패 없는 운영을 위해서는 실패에 대한 경험이 필요하다

위험을 알아차리고, 시스템 운영이 허용 가능한 성능 경계 안에 머물도록 능숙하게 다루려면 실패와 밀접하게 맞닿아 본 경험이 필요합니다. 더 견고한 시스템 성능은, 운영자가 ‘운용 한계의 경계(edge of the envelope)’를 식별할 수 있는 시스템에서 나올 가능성이 큽니다. 이 경계는 시스템 성능이 악화되기 시작하고, 예측하기 어려워지며, 쉽게 복구할 수 없게 되는 지점을 뜻합니다.

본질적으로 위험한 시스템에서 운영자는 위험을 실제로 마주하고 이해함으로써, 전체적으로 바람직한 성능을 내는 방식으로 행동할 것이 기대됩니다. 안전을 개선하려면 운영자에게 위험에 대한 보정된 시야를 제공해야 합니다. 또한 자신의 행동이 시스템 성능을 그 경계 쪽으로 밀어붙이는지, 아니면 그 경계에서 멀어지게 하는지에 대한 보정된 감각 역시 제공해야 합니다.

참고 자료

인류학 현장 연구는 ‘원인’ 개념이 사회적으로 구성된다는 점을 가장 분명하게 보여줍니다. 참고: Goldman L (1993), The Culture of Coincidence: accident and absolute liability in Huli, New York: Clarendon Press; Tasca L (1990), The Social Construction of Human Error, Department of Sociology, State University of New York at Stonybrook의 미출간 박사학위 논문. ↩
이것은 의학적 판단이나 기술적 판단에만 나타나는 특징이 아니라, 과거의 사건과 그 원인에 대해 인간이 사고하는 방식 전반에서 나타나는 현상입니다. ↩