システムが想定していない動作をしたとき、そこには何かしらの問題があります。その問題を特定し、原因を突き止めて、問題を解消する。そして、その問題が二度と発生しないような対処を行います。これがトラブルシューティングです。

システムには日々さまざまな問題が発生しますので、トラブルシューティングを如何に迅速に行うかによってビジネススピードは変化します。昨今の企業はシステム無くして事業の運営は不可欠ですのでシステム停止による経営へのインパクトは大きなものとなります。

そのために企業は、トラブルシューティングのプロセスを体系化し、より効率良く実行できる方法を確立しておくことが大切です。

今回はこのトラブルシューティングを効率よく実行するポイントについてご紹介します。

トラブルシューティングのプロセス

まずはトラブルシューティングの一般的な解決手順について確認していきましょう。

たとえばユーザーがシステムの遅延に不満を抱いた場合、まず最初に情報システムへ連絡を入れます。連絡を受けた担当者は現場に行って調査したり、ユーザーからのヒアリングによって問題を特定します。

次に原因究明です。トラブルシューティングによって原因を知るためには、システム面でのパフォーマンスをチェックしたり、実際の問題を再現してみて原因を究明します。原因が分かったら暫定措置を取り、その後、恒久措置を取って問題が起きないように努めます。

問題を細かく理解するためには?

トラブルシューティングの精度を上げて従業員の労働生産性を下げないためには、問題を細かく理解してそれに応じた対処プランを立てることが大切です。ここではトラブルシューティングにおける問題を理解するためのポイントをご紹介します。

Point 1. その問題にはどのような症状があるか

「問題は何か?」という記述はトラブルシューティングの中で最も基本的な質問です。これは単純なポイントのように見えますが、これをさらにいくつかの焦点に絞ったいくつかの質問に細分化することにより、問題を具体的に知ることができます。

Point 2. その問題はどこで発生しているのか

問題の発生源を特定することは必ずしも簡単なことではありません。しかしこれはトラブルシューティングにおける最も重要なプロセスの1つです。問題が報告されているコンポーネントと障害が発生したコンポーネントの間には、様々なテクノロジーが介在しています。

Point 3. その問題はいつ発生するか

問題発生にいたるまでのイベント情報について、詳細な時系列対照表を作成します。その表は特に問題が1度しか発生しない場合に有効です。この表を作成する最もシンプルな方法は逆方向に作成する方法です。エラー報告時点からはじまり、使用可能なログと情報を逆方向に調べていきます。通常、調査する必要があるのは診断ログで見つかった疑わしいイベントまでです。しかしながら、この作業は必ずしも簡単ではありません。経験が必要ですし、複数のテクノロジーが存在し、それぞれの層に独自の診断情報がある場合は、どの時点で調査を停止すべきか等の判断が大切です。

Point 4. その問題はどのような状況下で発生するか

問題発生時に稼働していたシステムとアプリケーションを理解することで、トラブルシューティングを行うための重要は情報源となになります。

Point 5. その問題を再現できるか?

トラブルシューティングの観点から見ると、再現可能な問題というのはチェックに取り込みやすい傾向があります。テスト環境等でその問題を再現できれば、原因は究明できます。

これがトラブルシューティングの一般的なプロセスです。

トラブルシューティングの課題

トラブルシューティングを実施するにあたっていくつか重要な課題がいくつかあります。それぞれの課題をクリアしないと、最終的なトラブルシューシューティングの効果が薄れてしまいます。ではその課題とは何でしょうか?

原因究明の難しさ

近年、新しいソリューションの誕生やIT環境の整備化、クラウドコンピューティングの台頭によりシステム構成が非常に複雑化しています。オンプレミスとクラウドが入り混じったハイブリッドクラウド環境などはその代表でしょう。

そして、こうした複雑化されたシステム構成がトラブルの原因究明を難しくし、対処の遅延を招いてしまっているのです。

優先度の低いアラートに対する対処の無駄

社内システムを構成している以上、正常に運用されているか常に監視する必要があり、トラブルが発生した際はアラートによって認知することができます。
しかしこのトラブルアラートには優先度の低いものが報告されることもあり、その度に対処しなければならず、業務の無駄を生んでしまうこともあります。

システムの安定性を保つためにはすべてのトラブルに目を通す必要があるので、これは仕方のない課題とも言えるのかもしれません。

対処遅延によるユーザー満足度低下

トラブルシューティングの課題が顕在化し、原因究明や対処が遅れるとパフォーマンス低下につながります。そしてパフォーマンス低下はエンドユーザーの満足度を低下させる直接の原因にもなるのです。

適切なトラブルシューティングを実施するためには?

企業にとって重要な機能であるトラブルシューティング。これを適切に実施するためにはどういったポイントに注意すればよいのでしょうか?

プロセスを体系化する

トラブルシューティングを適切に実施するためにまず大切なのがプロセスの体系かです。これには2つの理由があります。

まず「業務標準化を図ること」で誰もが同じ作業を行えるような環境を整えます。トラブルシューティングにあたる担当者のスキルはまちまちです。しかしそれを放置したままにすると、そのスキルの高い担当者に業務が依存してしまう可能性があります。

2つ目の理由はトラブルシューティングノウハウが積み上がることです。トラブルシューティングを実施するためにはいくつかのプロセスが必要です。しかしそこにノウハウが無いとプロセスの高速化は不可能です。そのためトラブルシューティングを成功させるためにプロセスの体系化が必要になります。

ITツールを使用する

トラブルシューティングを実施するにあたって重要なのがITツールです。ITツールを使用することでこれまで数時間かかっていた原因特定を数秒から数分で済むようになり、かなり労働生産性をアップできます。また、最近ではトラブルを未然に察知するソフトウェアもあります。

ITツールにはいろいろとありましたが、この場合はアプリケーションパフォーマンス管理が必要です。例えばレイクサイドが提供するSysTrackは問題を瞬時に特性する機能を提供します。そのためエンドユーザーが実際に感じているパフォーマンスを把握し、問題があければその個所を素早く特定します。

トラブルシューティングに取り組もう

どんな企業にとってもトラブルシューティングは欠かせないIT戦略です。特に最近の複雑化の一途をたどっているシステム環境で、素早く問題を回収できるかが重要です。

皆さんの会社でもぜひトラブルシューティングに取り組んでみてください。問題解決力を向上させることで企業の安定成長へと貢献できます。

サービスデスク ソリューション