我々も去年の時点では今頃からテレワークがホットになっていくと思っていました。

ただし、あくまで東京オリンピックへの対応として東京近郊だけの一時措置として盛り上がっていく事を想定していました。ここでの想定は非常に限定的で、1-2か月の間出勤を減らしたり、今まで以上にWeb会議を推奨したりする、いわゆる「テレワーク月間」のような一時的な対処を行う事を議論しており、業務がテレワークで回るようにする、と言ったことや徹底したプロセスの電子化と言った業務改革は長期課題として分けて議論されていたと思います。

翻って、昨今の新型コロナウイルスの流行による各種自粛や緊急事態宣言により、ビジネス環境・IT環境は激変しました。現在となってはすべての企業が何らかの形でテレワークを1日でも早く実施し、1人でも多くの従業員をテレワーク対象にする検討をする必要が出てきました。「我々のビジネスは自粛対象外なので・・・」と言うところも一度感染者が出てしまえば、次の週からは店舗やオフィスクローズ・業務停止などが発生するため、たとえテレワークを今すぐ適用しなくても感染者が出たらすぐ適応できる現実的な災害復旧プロセスを考える必要が出てきました。

これまでも、多くの大企業では想定の差異はあれ、東京が壊滅するような有事のための災害復旧プロセスやビジネス継続プランは議論されていたと思います。ただし、以下のような想定をしている災害復旧プロセスはあったでしょうか。

  • 東京・日本だけでなく多数の国で同時期に外出や自粛が発生
  • データセンターや建造物などの物理損壊はゼロでこれまでと同じように利用可能
  • オペレーターやヘルプデスクなどの運用担当者も接触や出社を最小化していく必要がある
  • 移動や接触を減らす事が社会的責任として求められる
  • 咳や熱など目に見える症状だけで判断できず、オフィス環境を消毒したり、風邪症状の出勤停止をしたりするだけでの対処は難しい

上記の前提は特にオフィスワーカーの従業員にとっては、業務環境を他の地域に移すような災害復旧プロセスはほぼ無意味だが、テレワークさえ出来ればこれまで通り業務を継続することが出来る事を意味します。このような背景の中で、急激なテレワークの推進や対象者の拡大が議論されるのはやむを得ないのではないでしょうか。

急激なリモートワーク推進とワークスペース環境の課題

これまでテレワークの検討は対象ユーザーや業務の想定、機器や仕組みの選定・ネットワークの増強・コラボレーション環境の見直し・人事や労組的な議論・費用対効果などをすり合わせながら数年かけて1つずつ実施していきました。
現在はこのような多面的な検討は出来ないことがほとんどで、以下のようなスピード重視のテレワーク推進が多くなってきました。

  • VPN 対象ユーザーの拡大 (ハードウェアスペックやサイジングなどを考慮せずに拡大)
  • 持ち帰りを禁止していたPCの持ち帰りを許可
    (業務や会社によってはデスクトップPCを持ち帰った、と言うところもあったと伺っています)
  • BYODの許可・私用PCの会社接続の許可
  • 外部からアクセス出来なかったシステムの一時的な外部開放
  • VDIなどのシンクライアント対象者の拡大
  • Web会議の急激な増加
  • Teams/Slackなどコラボレーション環境の急激な拡大

上記はどれもぎりぎりの判断で行われています。極論を言えば、「これまでと同じような業務が出来なくてもビジネス全体が止まってしまうリスクを抱えるよりまだよい」と言う前提のためIT担当者は以下のような課題がいつ発生してもおかしくない状況で運用を注視している状況ではないかと思います。

  1. VPNの使用率は適切か
  2. Teams、Zoom、Slack、Outlookなどコラボレーションツールの使われ方の変化はどうなっているか
  3. PCのリソース消費が在宅勤務以降変化していないか
  4. 現在のPC環境や使用感は適切か
  5. 在宅勤務者がITの問題にヒットしたときに適切なサポートが行えるか
  6. VDIを動かすインフラリソースは十分か
  7. セキュリティ上の問題が発生していないか

本稿では上記の1.から5.までの課題について SysTrackでの分析の仕方について紹介し、急激なテレワーク移行へ対応していくかを紹介したいと思います。
7. のセキュリティについては非常に広いトピックになり、SysTrack以外の観点からの検討も必要になるためここでは議論しません。6. については別の記事で取り上げたいと思っておりますので、お待ちください。

Remote Work Performance Monitoring Kit のご紹介

Lakeside Software ではCovid-19 のパンデミック発生に合わせていくつかの Remote Work のIT運用を支援するKitをリリースしています。
今日はその中でも Remote Work Performance Monitoring Kitを紹介したいと思います。

こちらはその名の通り、リモートワークをしているユーザーの性能分析を行う事に主眼を置いたダッシュボード群になります。
このKitには以下のダッシュボードが含まれます。

ダッシュボード名 説明
Application Latency
Service Map
ドメイン別およびサブネット別に編成されたアプリケーション依存関係のサマリーをグループごとに表示。ルーティングまたは遅延に関する潜在的な問題の追跡に有効です。
Application Network Performance Overview 選択したデバイスグループのアプリケーションネットワークの消費量とパフォーマンスの概要。狭帯域下で問題になる可能性がある帯域幅の占有などを引き起こす潜在的な原因の特定に有効です。
Asset Management and Location Summary デバイスのロケーション(外部 IP検出を使用)のサマリーを資産の詳細情報の一部とともに表示。分散しているデバイスの物理的なロケーションの追跡に有効です。
End User Experience Trend by Group 前月からの変動の主な原因の分析に重点を置き、過去30日間のヘルス状況を可視化。特定の日を選択すると、選択した日のシステムのユーザーエクスペリエンスへの影響を確認できます。
Executive Group
Comparison
デバイスのユーザーエクスペリエンスとパフォーマンスのサマリーをグループごとに簡易表示して比較することが出来ます。
Office 365 Application Performance Overview 企業のOfficeスイートのアプリケーションの使用率とパフォーマンス特性の概要を表示。このダッシュボードはOffice 365 API (Graph API)への接続を必要としません。
Target Application Network Performance 選択したアプリケーションのアプリケーションネットワークの消費量とパフォーマンスをデバイスグループごとに表示。接続が制限されているシナリオで問題になる可能性がある帯域幅の高利用率の潜在的な原因の特定に有効です。
WFH Performance
Impact
リモートワーク前とリモートワーク中の複数のシステム間のパフォーマンスを比較。
Workforce Connectivity
Habits
選択したデバイスグループによって確立された接続のセキュリティ特性のサマリーを表示。

それではこのようなダッシュボードを使いながらどのように分析を行えるかを紹介していきます。

VPNの使用率や健全性の分析

VPN環境はお客様環境によって異なります。たとえば以下のようなVPNクライアントが動いている環境は多いのではないでしょうか。

クライアント側で稼働するVPNソフトウェアの例

VPNソリューション クライアントの実行可能ファイル
Citrix Netscaler Nsload.exe
Juniper Pulse.exe
Global Protect PanGPA.exe
Cisco Any Connect vpnagent.exe
F5 F5fpclientw.exe

1) VPNクライアントのクラッシュの発生推移

WFH Performance Impactダッシュボードでは日別のアプリケーションクラッシュの推移を分析できます。
ここでVPNクライアントなどの状況を分析することが出来ます。

2) アプリケーションのリソース使用量の推移

AppVision を使用してアプリケーションのリソース消費を分析します。デモ環境でVPNクライアントが入っていないため、画面ショットではTeamsを例にしていますが、ここにVPNクライアントを指定する事によってVPN から分析することが出来ます。

コラボレーションツールの使われ方の変化

Office 365 Application Performance Overview ダッシュボードでは Officeアプリケーションのリソース消費や利用時間を分析することが出来ます。
このダッシュボードでは以下のようなリソースサマリーに加えて、遅延の大きな接続先などの分析も行うことが出来ます。Office 365への接続は会社からの接続では最適化がされてそれなりに性能が良くも自宅からつなぐ場合に大きな遅延が出ている可能性もあるため在宅勤務時の変化などを追うことが重要です。

アプリケーション単位の遅延は Application Latency Service Mapと言うダッシュボードからも分析可能です。

このダッシュボードではアプリケーション → ローカルのサブネット → アプリケーションサーバーへの遅延 と言う接続図が表示され、
グループ全体で特に遅延の遅かったものを表示できます。デフォルトの「Moderate-High Latency Connections」や「High Latency Connections」では黄色や赤色の接続遅延だけを表示することが出来ます。(この黄色や赤色の遅延の閾値はスライダーで表示可能です。)

ここでZoomやTeamsなどの遅延がどこで問題になっているかを確認出来ます。クラウドサービスの場合多くは、家庭のネットワーク環境に問題がある事が多いのである程度特定出来たらResolveなどで詳細に分析することが出来ます。

PCのリソース消費の変化・PCの使用感の変化

WFH Performance Impact ダッシュボードではヘルスリソースと遅延のメトリックをグループ別およびロケーション別に調査することもできます。
以下のように移行日などを指定してPCのリソースやユーザーエクスペリエンススコアに変化が無いかを確認します。

  1. グループとロケーションを選択
  2. WFH(Work From Home:在宅勤務)への移行日を選択
  3. メトリックを調査

ユーザーエクスペリエンススコアに変化が見られた場合には、End User Experience By Group ダッシュボードで分析します。

在宅勤務者のITサポート

SysTrack のResolveではIT環境が把握しにくい環境のトラブルシューティングが出来ます。

以下の動画では英語ですが、Resolve でリモートワークの問題を分析する非常に興味深い例です。
Troubleshooting Remote Network Saturation with SysTrack

英語なので字幕を表示しても分かりにくいと思いますのでポイントをまとめますと、Resolveでは以下の流れで問題判別しています。

  1. Resolveの概要では、Real Time Latency Impact (ヘルスの遅延の値の影響が出ていることを示します)とNetwork Pipeline Saturation (NICの帯域消費率が上がっている状況)のセンサーが検知
  2. アプリケーションやゲートウェイの遅延を見ると特定期間で遅延が同時に大きく上昇していることを確認
  3. プロセス単位での帯域消費を見ても大きな消費は無く、帯域消費の形跡はない
  4. 結論(想定原因): 端末側の問題ではなく、家庭のネットワーク内で他のデバイスなどが大きく帯域を消費したりしているために、ネットワークのスループット低下が起こっている
    (実際に現在夫婦で在宅勤務したり、オンライン授業・オンライン会議を同時に実施したりしているためにこのような接続の問題が多数発生しています)

SysTrack Cloud Edition

在宅勤務時の端末分析をSysTrackで行うためには二つの条件をクリアしている必要があります

  • 対象の端末にSysTrack エージェントが導入されていること
  • 自宅からもオフィスからもSysTrackのマスターサーバーに接続出来ること

このためにSysTrackサーバーをDMZなどに置くことが事が難しい場合、SysTrackのCloud Editionを検討することも一つの選択肢になると思います。

自宅からも、会社からも TCP/443 への疎通が行われていれば同じように分析を行うことが出来、ドメイン参加していない端末などに対する証明書などの配慮も必要ありません。
SysTrack 9.0からは Cloud Editionは日本リージョンでも稼働し、日本語UIでも使えるようになりました。

興味のある方は14日間の無料の評価利用も出来ますので、興味のある方はレイクサイドまでお問い合わせください。 

関連記事

ブログ記事
(英文)Your Employees Are Home, Now What? | Ongoing Remote Monitoring and Management

ドキュメント
SysTrackリモートワークプランニング&パフォーマンスキット

デモ動画
リモートワーク支援ソリューションの紹介(動画)
Troubleshooting Remote Network Saturation with SysTrack (動画・英語)