予期せぬシステムトラブルが発生した時に素早く対処することよりも、システムトラブルを起こさないための事前の対処が大切です。それが、予防保守です。システムの保守運用では予防保守を計画的に行うことが欠かせません。では、具体的に予防保守とは何なのでしょうか?本記事では、その重要性やメリット、事後対応との違いなどをご紹介します。

予防保守とは何か?

システムは長く運用しているとさまざまなトラブルが発生します。定期的なアップデート対応、ソフトウェアの拡張、ハードウェアの老朽化などトラブルが発生する要素は多様に存在しています。また、リモートワークやモバイル活用というような使われ方の変化においてもトラブルが発生しやすくなるでしょう。予防保存とは、それらの要素を把握した上でリスクを整理し、それに応じた保守運用計画を立てて定期的なメンテナンスを実施するものです。

予防保守の重要性

では、予防保存は何が重要なのでしょうか?システム運用中のトラブルは多かれ少なかれ必ず発生します。その都度要因は違いますが、100%安定したシステムは基本的にはあり得ないわけです。トラブルが発生してから対処する方が効率的なのでは?と思われるかもしれませんが、実際はそうではありません。
トラブルが顕在化してから対処するとなると、まずは障害範囲等を特定してから原因調査を行います。その結果から解決に必要なアクションを取ったり、新しいリソースを調達します。つまり、トラブル解決までに複数のプロセスが必要になることで、問題特定に時間がかかり対処が遅くなるというわけです。また、対処が遅くなるほどビジネスに影響を与えることになり、企業の生産性低下が懸念されます。

一方、予防保守は保守運用計画に従って定期的なメンテナンスを実施し、リスク発生確率を低減する役割があります。つまり、そもそもトラブルを生まないための保守活動なので、トラブル発生を未然に防ぎ、解決にかかる労力や時間をそもそも無くすことができるというわけです。

予防保守の基準

実際に予防保守を行うにあたり、重要なことは「何を基準にしてメンテナンスを実施するか?」です。一般的には時間基準保守と状態基準保守の2通りを組み合わせながら保守計画を立てます。

時間基準保守とは、所定の期間に応じてメンテナンスを実施する方法です。状態基準保守はハードウェアやネットワーク機器などの劣化具合に応じて新しい機器等を調達する方法となります。また、パフォーマンスを維持するためにデータ量の増加に応じてリソースを拡張するのも状態基準保守の一種です。

このように、予防保存では異なる2つの保守基準を用いることがポイントになります。

事後対応との違いは?

事後対応とは、文字通りシステムトラブルが発生した際に事後的に対処する保守活動のことを指します。システムに起こりうる障害は2通りあります。システムの一部または全部の機能を停止させてしまう機能停止型障害、システム停止とまではいかなくともシステムパフォーマンスの低下を招く機能低下型障害です。

システムに何らかのトラブルが発生すると、その範囲を特定してから原因を究明し、適切な対処を取ります。ドキュメントを確認しながら原因究明をするのが一般的ですが、そこにはやはり一定の時間がかかるものです。

前項でも説明したように、事後対応ではシステムトラブル発生後の対処となり、解決のためのプロセスも長くなります。対処が遅くなるほどエンドユーザーのビジネスに影響を与えることになり、ビジネスパフォーマンスの低下を招いてしまうわけです。

予防保守のメリット

それでは、予防保守を実施するメリットをご紹介します。

メリット1. 計画的かつ効率的なメンテナンスで運用負担を軽減できる

システムの保守活動でまず大切なのは、計画的・効率的なメンテナンスを実施することでシステム担当者の運用負担を軽減することです。企業の中には、事後対応ばかりに追われ業務が進められないシステム担当者が多数存在しています。そこに計画的・効果的にメンテナンスを実行できる予防保守を導入すれば、メンテナンスによる運用負担は軽減されます。システム管理者のリソースが余れば、本業に集中できたりIT戦略へ注力できたりします。

メリット2. システムの良好状態を保つことでリスク発生率を低減する

システムは多様なコンポーネントから構成されています。サーバー、ミドルウェア、OS、ソフトウェア、ネットワーク、その他の機器、これらにはすべて寿命があるため、永続的に安定させることは難しいものです。しかし、予防保守によって定期的メンテナンスを実行して、システムを常に良好に保つことはできます。システムが常に良好ならば、リスク発生率は低減します。これによりシステムトラブルが減少するので、相対的にビジネスパフォーマンスは向上するでしょう。

メリット3. 標準化された保守活動で誰もが予防保守に取り組める

保守活動の良いところは、事後対処のように影響範囲特定・原因究明・解決策立案といった複雑なプロセスを持たず、なおかつ高い技術を必要としないことからほとんどのメンテナンス作業を標準化できることです。標準化によって誰もが保守活動に取り組めるようになれば、システム管理者の退職や異動によるリスクも大幅に低減されます。俗人的状況も避けられるので、予防保存だけであらゆるリスクを回避できるわけです。

メリット4. 事後対応が少なくなることでコスト削減に繋がる

事後対応が少ないということは、それだけ無駄な人件費が発生しないということです。故にコスト削減に繋がるケースが多いでしょう。また、定期的なメンテナンスによってハードウェア等の調整を行うので、寿命を延ばすことにもつながります。サーバー入れ替えのケースも少なくなってくため、システムコストの削減にも繋がるでしょう。

予防保守をすべきか?事後対応をすべきか?

ここまでの解説の中で、結局システムの保守運用活動で大切なのはどっちなの?と疑問を持たれた方も多いでしょう。もちろん、どちらも大切であり、どっちの保守運用活動が正解ということはありません。大切なのは、予防保守と事後対応を同時に実行しながらシステムパフォーマンスを極力維持することです。

例えば、いくら予防保守を実施してもシステムトラブルが発生することはあります。むしろ、そういうものだと理解しながら保守活動に取り組まなければいけません。実際にシステムトラブルが発生したら、事後対応を通じて処理履歴などをすべて記録します。そうして記録したデータは予防保守に役立ちます。なので、システムの保守運用について計画を立てる際は、予防保守計画に加えて事後対応の標準化なども行うと、効率的かつパフォーマンスの高い保守活動に取り組めます。

また、予防保存と事後対応の他にも予兆保守と呼ばれる方法があります。これは、システム全体から収集可能なデータを一元的に管理し、分析して、システムトラブル発生やシステムパフォーマンス低下の予兆をみつけだし、トラブルが顕在化する前に対処できます。

システムの保守運用について考える際は、以上3つの保守から適切な組み合わせによって、社内システムの保護を積極的に行っていきましょう。

ユーザー目線のヘルスチェックでユーザーエクスペリエンスを数値化するSysTrack

SysTrack ではユーザーエクスペリエンスを阻害する13種類の項目を常時監視して、管理者が問題の発生状況を一目でわかるようにします。また、システムやアプリケーションのリソース消費状況など1,000種類以上のデータを最短15秒単位で記録しているため、より短時間で問題の原因に迫ることが可能です。

また、SysTrack セルフヒーリング(自己修復:管理者が自ら問題を自己診断しトラブルを未然に対応する)では、AIOpsのセンサーとアクションを紐づけ、既知の問題に対して自動的に指定した処理を実行できるようになりました。

ヘルプデスク担当者が手動で実行することも可能で慎重な対応が必要なアクションに対しても柔軟な運用オプションを提供します。これによりシステムを工数をかけずに常に安定して動作させることが可能になります。

SysTrackのAIOpsはこちら