2011年08月01日

みずほのシステム障害はなぜ二度起きたか

2011年3月、みずほ銀行は東日本大震災の直後に振り込み遅延やATM停止といったシステム障害を連発、収束までに10日間を要した。みずほ銀行が大規模なシステム障害を発生させたのは、9年前の2002年に続き、2度目となる。失敗が繰り返される根本的な原因は、経営陣のIT軽視、ITへの理解不足である。残念ながら、多くの企業の経営トップは、情報システムの価値やリスク、現場の苦労を分かっていない。以下は日経コンピュータによる公開資料の調査結果の要諦である。

■発端
 東日本大震災の3日後、2011年3月14日から10日間にわたって、みずほ銀行は大規模なシステム障害を引き起こした。義援金の振り込みが集中したことをきっかけに、老朽化した勘定系システムの「弱点」が表面化。振り込み処理の遅延やATM(現金自動預け払い機)の全面停止を招いた。

■日経コンピュータによる原因分析
 2011年5月20日、みずほフィナンシャルグループはシステム障害の全貌を明らかにした。日経コンピュータによるそれら報告資料の検証の結果、30の不手際が重なり影響が拡大した事実が判明。
 不手際は大きく以下の4種類に分けられるとのこと。
(1)情報システムの仕様や設定についてのもの
(2)システム運用に関係するもの
(3)リスク管理についてのもの
(4)緊急態勢に関連するもの

(1)情報システムの仕様や設定についての不手際
・義援金口座の振り込み件数に上限値があることをシステム担当者が知らなかった。
・勘定系システムを20年以上にわたって、大幅な刷新をせずに使い続けてきた結果、システムの老朽化・肥大化を招いた。それがシステム設定などの不手際につながった。
・オンライン処理とバッチ処理を交互に実行することを前提とした勘定系システムの設計思想が、システム障害の影響拡大につながった。これも勘定系システムの老朽化による弊害といえる。

(2)システム運用に関係する不手際
・障害対応の最中に操作ミスが多発した。
・バッチ処理の最中に必要なデータを誤って削除した。
・障害の混乱によって重要な運用操作を失念した。

(3)リスク管理の不手際
・新サービス導入時に負荷テストが漏れなく実施されているかどうかをチェックするプロセスが抜け落ちていた。
・システム部門の開発チームがテストを怠り、品質管理チームがこの問題を見逃した。
・監査部門による内部監査とみずほフィナンシャルグループによる外部監査も機能していなかった。

(4)緊急態勢の不手際
・危機対応能力の欠如していた。
・システム障害が発生してから、システム担当役員がそれを知るまでに17時間、頭取が報告を受けるまでには21時間を要した。この報告の遅れが初動の遅れにつながり、システム障害の影響拡大を招いた。

■上記4種類の不手際の背景に存在する根本原因としての経営問題(経営陣のIT軽視)
みずほ銀行とみずほフィナンシャルグループの歴代経営陣は、システム刷新の費用とリスクを嫌った結果、刷新を決断することができなかった。システム障害が経営に与えるダメージを想定できず、障害の影響が拡大しやすいシステム運用をシステム部門に強いてきており、これが結果的に数々の不手際につながった、と日経コンピュータは結論付けている。
posted by ダンケルク at 23:32| Comment(0) | TrackBack(0) | リスク管理 | このブログの読者になる | 更新情報をチェックする
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。