古いバージョンのブラウザーを使用しています。MSN を最適にご利用いただくために、サポートされているバージョンをご使用ください。

膨大なシステムアラート、対応すべきはたった3%だった IIJの運用管理を激変させた“効率化のワザ”

ITmedia エンタープライズ のロゴ ITmedia エンタープライズ 2017/06/05
膨大なシステムアラート、対応すべきはたった3%だった IIJの運用管理を激変させた“効率化のワザ”: 画像:ITmedia © ITmedia エンタープライズ 提供 画像:ITmedia

 クラウドサービスは今や、企業にとって当たり前のシステム基盤になりつつある。昨今は、全てのシステムをオンプレミス環境だけで構築している企業を探すほうが難しいかもしれない。

 経営判断のスピードを上げたり、業務部門の生産性を高めたりと、ビジネスのさまざまな現場で効果を上げているクラウドだが、その運用管理の複雑さはIT部門の業務に大きな影を落としている。クラウドサービスやオンプレミス環境があちこちに散在するハイブリッド環境の運用管理はたやすいことではないからだ。

 「運用の効率化も考えてクラウドサービスを導入したはずなのに、運用負荷は高まる一方、という結果を招いているのです」――。とインターネットイニシアティブ(IIJ)サービス基盤本部の福原亮氏は、こう指摘する。

 「ハイブリッド環境でシステムを運用管理している現場では、3つの大きな課題に直面しています。それは『ナレッジ不足』『障害対応の基本フローの未整備』『業務体制と役割のミスマッチ』という課題です」(福原氏)

●現場が直面する「運用管理、3つの課題」

 運用の現場では、知見を蓄めていくことが業務の効率化につながるが、多くの現場ではそれが難しい状況だという。

 「障害が発生したときに、その原因がハードウェアにあるのかソフトウェアにあるのか、どのように対処したのか――といったことを詳細に分類しなければナレッジにはなりません。ならナレッジベースの器を作ればよいかというと、そう簡単な話でもない。その器に“情報をきちんと入力しよう”というルールを決めたとしても、運用担当者はある障害アラートに対応したら、次のアラートが待っているといった状況であり、とてもルールを守って入力することができないのです」(福原氏)

 「ナレッジベースには単に入力するだけでなく、それが正しいかどうかを検証した上で情報としてためていかなければなりません。他の担当者がナレッジを読んだときに理解できなければ意味がないのです。その検証の手間がかかるため、ナレッジの蓄積につながらないのです」(IIJクラウド本部の土岐田尚也氏)

 こうした背景から結果的にナレッジが不足し、いつまでたっても“担当者の職人芸”の域から抜け出せないのだという。

●課題の根本的な原因は「大量のアラートにあり」

 2つ目の課題として挙がった「障害対応の基本フロー」については、「我が社は整備している」と異を唱える人もいるかもしれない。しかしながら、そのほとんどは、「整備しているといえる状況ではない」と福原氏は指摘する。

 「基本フローが決まっていたとしても、実際にはハードウェアやソフトウェアが更新されていくにつれ、そのフローは陳腐化します。決められたフローが徐々に実態にそぐわなくなるわけです。その結果、障害発生から対応完了までのタイムラインを正しく計測できなくなり、『忙しいのは分かるけれども、どこにその原因があるのか分からない』という事態を招くことになります」(福原氏)

 この点についてはさらに、もう1つ課題がある。業務体制と役割が曖昧になることだ。

 「例えば、障害対応の一次受けはオペレーター、二次対応はエンジニア――という役割分担をしていても、どうしても業務がまたがることがあります。さらに他の担当者にエスカレーションする際には、タイムラグも発生します」(土岐田氏)

 こうした課題を抱えるようになるのは、システム運用の現場が「大量のアラートに忙殺されている」ことが根本的な原因だという。アラートが次から次へと上がってくるため、ナレッジベースに入力できない。入力できたとしても検証できない。障害対応の基本フローが整備できない。体制と役割がミスマッチして対応の遅れが発生する――。そんな負のスパイラルに陥るわけだ。

●現場の負荷を抑制する不要なアラートの除去

 運用管理サービスを提供するIIJでも、同様の課題を常日頃から抱えていたという。課題を解決するには、まずは運用担当者の「忙しすぎる状態」を解決する必要があると考えた。そこで目をつけたのが、「システムから日々刻々と上がってくるアラート」だった。

 「ITILではイベントの中で必要なものだけをインシデント化するとしていますが、本当にそうなっているのか、まずは自社で確かめることにしました。監視ツールから上がってきたアラートを照合し、対応が不要なアラートを機械的にフィルタリングしたところ、約67%のアラートが不要なものでした。さらに残りの約33%を人手で照合したところ、33%のうちの30%が無視できるアラートでした。対応を要するアラートが、実は約3%しかなかったのです」(福原氏)

 さらに、実際にインシデント化して対応したアラートは0.3%、一次受けでは対応できずにエンジニアへエスカレーションしたアラートは0.03%という驚くべき数字だったという。

 「対処不要なアラートをあらかじめ取り除くことで、システム運用の現場の負荷を大幅に抑制できることは明らかです。しかもアラート全体のうち約97%についてはシステムや監視ツールに依存しないことも分かりました。そこでIIJでは、大量の機械処理を入れたアラートの分析システムを自社で独自開発しました。それが『アラート中継システム』です」(土岐田氏)

 IIJが開発したアラート中継システムは、年間1000万件以上のアラートを自動処理しているという同社の実績を活用し、膨大なアラートの中から対応が必要なアラートを分類するフィルタリング機能を提供しようというものだ。

 対応が必要なアラートのうち、原因を特定するのに時間を要するような複雑な障害は、過去のナレッジを活用して最適な復旧手段を提示する。このシステムはIIJが提供する「IIJ統合運用管理サービス」の基本機能に含まれているので、「システム監視の部分をIIJへアウトソーシングすることで運用負荷と時間を大幅に軽減できる」(土岐田氏)という。

 IIJ自身もアラート中継システムを自社システムの運用管理に適用している。その導入により「アラート数の約90%を削減し、オペレーションの負荷を5分の1まで軽減し、対応スピードが約2倍に向上するという効果が得られた」(福原氏)という。

 ちなみにIIJの統合運用管理サービスは、ハイブリッドクラウド、マルチクラウド環境の運用管理業務の負荷軽減に寄与するサービスであり、クラウドサービスごとに異なるポータルやサポート窓口を統一化する統合管理ポータル機能を備えている。複数のクラウドサービスから構成やリソース情報を自動取得するので、企業のIT部門ではクラウドサービスの違いを意識することなく、統合管理ポータルを使って一元的に運用管理できる。

 ハイブリッド環境における運用管理の課題は、もちろんアラート対応だけに限るものではないが、アラート対応の取捨選択を自動化・効率化するだけでも、現場の業務生産性は大きく改善するという。このIIJの取り組みは、運用負荷を軽減したいと考える企業のヒントになるはずだ。

ITmedia エンタープライズの関連記事

image beaconimage beaconimage beacon