東京証券取引所のシステム障害について

2012年2月2日に東京証券取引所のアローヘッドに障害が発生しました。
以下は事実を比較的淡々と述べている記事です。

【読売新聞】東証システム障害、バックアップ機能せず
 【朝日新聞】東証、停止していた２４１銘柄の売買再開　システム障害

そして以下は東証を叩いている記事です。

2月3日の早朝には主要各紙の社説も出揃うと思いますが、おそらく東証に対して厳しい見方を示す報道が多くなるのではないかと思います。
そこで、ここでは別の視点から今回の障害を見てみたいと思います。

1. 障害発生時の危機対応マニュアルが整備されていたこと

ロイターの記事がこのあたりのことに触れています。
東証のシステム障害、情報配信システムの機器に原因　「サイバーテロでない」

障害が発生したサーバーが処理を受け持つ銘柄について、危機対応マニュアルに従って売買停止の判断を下した。東証は「現状の株価を見ながら取引するのが大前提なので、これ（株価情報）を出せないときには取引を止める方針」だとしている。

サーバーを強制的に切り替えることで午前１０時ごろにシステムは復旧したが、取引参加者が注文を出し直すのに要する時間など、利用者に配慮し、該当する銘柄の取引再開は後場からにするのが適切だと判断した。

万一障害が発生した場合の危機対応マニュアルを整備しておくことは非常に重要なことです。100%絶対に障害が発生しないシステムというのは、いくらお金をかけたところで実現不可能です。そこで、そのような事態が発生した時、どのような行動をするのかを明確にしていた点は評価できるポイントです。そして、そのマニュアル通りに対応し、混乱を最小限に抑えることができた点は素晴らしいです。逆に現場の判断のみで行動し、対応が二転三転することになれば、重ねて評価を落とす結果となっていたことでしょう。

2. 世の中が100%落ちないシステムを欲していること

今回の障害の結果を受けたコメントの多くが100%落ちないシステムを要求していることに驚きます。先に引用した毎日新聞の記事はその代表例です。しかし、1年も経たない前に「100%安全」と宣言していたシステムがどのような結果になったか、もう忘れてしまったのでしょうか。

東証もシステムを提供しているベンダも、限りなく100%の信頼性に近付ける努力をすることはもちろんです。しかし、100%問題が起きないということはあり得ません。私たちはその事実に気が付くべきです。「問題が起きないように最大限の努力をすること」そして「万一問題が発生した場合には、どのように対応するかを明確にしておくこと」これが大事なことです。

3. バックアップへの切り替え機能を信頼しすぎていること

私は東証のシステムのように、限りなく100%に近い信頼性が求められるシステムに携わったことはありません。その上での意見になりますが、「障害が発生した時の、バックアップ機器への切り替え機能を信頼しすぎている」ように感じます。これは、私が携わっている規模のシステムでも言えます。ほとんどの冗長化されたシステムは、動作中の機器が壊れた時、その機器をシステムから切り離して、バックアップ機器が動作するように切り替えます。しかし、この切替の多くは論理的に行われるもので、物理的に切り離すという例はほとんどありません。そして、ここで感じるのは、

「そもそも壊れた機器の切り離し機能が、正常に動作することを期待している」

という矛盾した思想になっていることです。私が携わっている規模のシステムでは、機器の障害が10回起こったとしたら1回くらいは正常に切り替わりません。

システムの運用に携わっていない方は不思議に思うかもしれません。もちろんシステムを構築する時には試験もします。この試験は電源を強制的に落としたり、ネットワークケーブルを切断したりと、試験対象の機器が「完全に壊れた」場面を想定して試験を行いますが、実際に機器が壊れるときに「完全に壊れる」ということはほとんどありません。多くの場合、中途半端に壊れます。実は壊れていないのに、「壊れた」と誤検出することもあります。バックアップの仕組みを入れるために、システム全体が複雑になり、問題箇所の特定に時間がかかることもあります。それでも、バックアップの仕組みを導入することで、10回に9回くらい救えるのであれば大きな意味があります。システム構築に携わっている方は、バックアップの仕組みを信頼しすぎないことにも注意しなければなりません。