私は情報システムの仕事に従事して40数年経ちますが、特に力を入れてきたのは、有事の際のバックアップ&システムリカバリー(早期回復)です。それには訳があります。
私は苦い経験をしています。若い時代の出来事ですがデータファイルが消えてしまうインシデントに遭遇しました。定められたリカバリーを行いましたが元に戻りませんでした。原因は取得されているはずのバックアップデータがアクシデントにより取れていなかったためです。そこで、私は諸先輩の指導の下でディスク上のデータを物理的に読み取り、元に戻すプログラム開発の担当をし、復旧しました。今でも鮮明な記憶として残っていて、それ以来、バックアップデータのデータが本当に使えるのか?本当に元に戻るのか?など、バックアップ&システムリカバリーの重要性を深く胸に刻み、要件定義~設計~ソフトウエア作成~テスト~リリース~運用支援だけでなく、万一の事態に対するバックアップとリカバリーについてキチンと設計を行い、仕組みを構築して元に戻る試験・検証を行うことが最重要であるということを痛感しました。
最近では、サイバー攻撃によりコアの業務システムのデータに加えてそのバックアップデータもマルウエアにより暗号化されてしまい、容易に元に戻らないというような事象が発生しており、システム復旧が注目されていることもありますので、今回はバックアップデータ&システムリカバリ-についてお話しします。
(1)システムリカバリーが必要なケース
いずれも発生確率は低いですが、あり得るのは下記のケースです。
- 災害(地震、台風、大雨、火災)によるサーバ・ストレージや磁気ディスクの損壊
- ハードウェア障害によるストレージや磁気ディスクの故障
- サイバー攻撃等によるストレージや磁気ディスクのデータ破壊・暗号化
- オンプレミスサーバの場合、変電所落雷、電気設備トラブルなどによる大規模停電に伴うデータの損失
近年はクラウド化(PaaS、IaaS)やデータセンター稼動が進んでいるので上記①②などは影響を受け難くなっていますが、構成や契約によっては万全とは言えない可能性もあり、また自社敷地内にオンプレミスサーバ・ストレージを稼動させている企業もありますので、有事の際の備えは不可欠です。
(2)システムリカバリーの取り組み実施に必要な事項
バックアップ&システムリカバリーについて、今までの経験をもとに振り返り整理した重要事項は、次の通りです。
- 経営課題の一環として取り組むこと
- リカバリー体制の持続的な構築
- バックアップ&リカバリーの事前検証
次に重要事項①~③について、詳細にお話しします。
①経営課題の一環としての取り組むこと
-
経営者が事業継続の一環で情報システムに何らかのトラブルがあった際に早期復旧することの重要性を認識し、責任体制の構築と維持に向けたリソース(モノヒトカネ)投資を行うことが必要
- バックアップ&リカバリーへの投資は収益を生むものではなく、いつ起こるかわからないことに対する対策投資である為、経営の理解を得る難易度が高い
- 自然災害でのシステムダメージやマルウェア感染によるデータ暗号化と身代金の問題が発生し業務停止が起こる可能性がZEROではない
- よって経営課題と認識し、情報システム部門に任せるのではなく事業継続の一環として経営者が強く関与して復旧体制を確立する必要がある
- 具体的には、経営として有事の際にどのような影響がありどのくらいの期間でどの程度に復旧できるかについて、現状を期待論は無くして客観的に評価して、必要な対策(投資)を行うことが重要である
②リカバリー体制の持続的な構築
-
リカバリーを行う指揮命令系統が確立していて復旧責任者と実務リーダ(司令塔)が明確であること
- リカバリーが必要なインシデントが発生した場合、発見・通報、情報収集・把握、対応意思決定、対応実行を行える体制、指揮命令系統を確立しておく必要がある
- 特に、事態を解決に導く実務的な司令塔役の明確化、育成と訓練が最も重要
-
リカバリーを行う際に関連ベンダー、自社要員について役割が明確であること
- 自社要員のミッションと関連するベンダー(クラウドベンダー、システムベンダー、コンサルタントetc)に依頼する事項についてキチンと役割を明確化させておくことが重要である
- ベンターとの契約事項の文言の理解齟齬、思い込みがあると、期待した対応がなされないリスクとなる
-
リカバリーを行う技術者が必要時に即時に揃えられること
- 必要な時期に必要な技術者(外部ベンダー含む)が本当に揃えられるか?の確認と準備が重要
- 特に担当者が1人であると休暇、病気療養、出張等があれば困難となるので複数の担当者育成が必要
- 外部ベンダーに対しては同様の確認とコミットを取っておくことも必要
-
リカバリーの訓練を定期的に行って必要時に動けること
- 有事の発生確率が低いので、定期的にリカバリーの訓練を実施していつでも動けるようにしておく必要がある
- ウォークスルーテストだけでなく、指揮命令系統や司令塔役の実地訓練、試験環境等での実践リカバリー実地訓練が最も重要
③バックアップ&リカバリーの事前検証
- 経営者、CIOが事業継続の一環として情報システムに何らかのトラブルがあったときの早期復旧について重要性を認識し、責任体制を構築して対応の持続性を維持していること
-
バックアップデータが正しく必要な種類が取れていること
- オンプレミス、クラウドのいずれにおいても、必要な全種類のバックアップデータが取得されていることの確認が必要
-
加えて、本当に取れているかの確認が出来ていること
- 何らかの手段でバックアップデータが確実に正しく取得できていることの確認が必要
- バックアップ専用ツールでは取得確認ができる機能が搭載されているものもあるのでツール選定で検討が重要
-
バックアップデータがサイバー攻撃を受けにくい対策が取られていること
- 本番サービスのストレージ/磁気ディスクとは別の場所(土地、LAN、記憶 媒体構成)に取得しておくことがベスト
-
リカバリーポイント(復旧時点)が明確であること
- 障害発生後、どの時点(障害発生直前、直近バックアップデータの取得時点、昨晩サービス終了時点、朝サービス開始時点etc)に戻せるか?の明確化
-
リカバリー時に必要なサーバインフラの確保が適時的確に行えること
- マルウェア感染したサーバを「使えない」「使わない」ケースもあり、オンプレミスサーバの手配やクラウド緊急契約対応など、ベンダーと共に手順を決めておく必要がある
-
システム間連携に際しリカバリーポイントが全て同期をとれていること
- 様々なシステム間で自動連携を取っている場合、復旧時点が全関連システムのリカバリーポイントの同期化(同一化)が必要。同期化が難しい場合の復旧手順の検討が重要ポイント
-
全てリカバリー手順が確立し、最新ドキュメント化されて共有されていること
- 必要な全リカバリー手順が属人化されておらず、標準化・ドキュメント化されて関係者でいつでも共有出来ている状態が必要
-
実際にリカバリー作業を試験してキチンと戻ることを確認していること
- リカバリー手順について試験して問題が無いか?正しく動作するか?の確認が必要
(3)現在までの振り返りと現状評価
- バックアップ&システムリカバリーについて今までの取り組みの振り返りと、有事の際に本当に情報システムが元に戻るのか?どのぐらいの期間でどの程度復旧するか?という評価と体制と手順の点検が必要です。
- BCPの訓練の一環で定期的にDR(ディザスタリカバリー)について実施されている企業は多いと思いますが、実際にバックアップからデータを戻す訓練は、本番環境ではできないため難易度が高く、ウォークスルーによる手順確認が主体で、環境的な問題もあり中々実施されていないケースが多いのではと予想します。
- その場合は、「本当にバックアップデータが正しく連携システム間のリカバリーポイントの同期化状態で取れているか?」「本当に元に戻るか?」という実践の確認を取ることはできません。
- 本番環境では難しいため、テスト環境を活用して可能な限りの範囲で一連の実地試験を行うことをお勧めします。
- その際にリカバリー手順確認、リカバリオペレーションだけでなく、実際のケースを想定して、復旧責任者、復旧の司令塔役、関わる担当者、関わるベンダーなどの関係者が想定通りに状況把握、情報収集と分析、対応方針決定、対応指示、実行管理、復旧確認、関連部門への適宜のアナウンスなど対応できるかの実施確認は大変重要で必要です。
(4)まとめ
事業継続上、経営がシステムリカバリーの必要性をしっかりと認識し、必要なバックアップ・リカバリーのツール、体制を整備して、更に何時でも機能するように定期的な訓練と、体制の維持に取り組む必要があります。
今回お話ししたすべての事項に対しては、実施に当たって難易度が高いものもありますが、一つでも多くの事項に取り組み、万一の事態に対して「早期に」「的確に」「正確に」情報システムを復旧させて事業に与える影響を最小限にしていくことが重要です。
(5)追記 “パソコンのデータバックアップについて”
今回は、基幹システム等を対象にお話ししましたが、パソコンについてのバックアップ&システムリカバリーの取り組みも大変重要な課題と認識しています。
パソコンのインシデントには、マルウェア感染による身代金要求(データ暗号化)、盗難、紛失などがあります。
最新バックアップデータがあれば、マルウェア感染しても環境設定してデータロードすれば解決しますし、盗難や紛失に際しても、どのようなデータが入っていたか?という影響把握と打ち手を講ずる効果があり、パソコンのみに非共有化データがあれば業務復旧まで短期間で対応が取れますので、大変重要な事項です。