ad1

2023年12月10日日曜日

Live Optics を利用した仮想化基盤の詳細アセスメント(2024年版)

今回は VMware Explore 2023 Tokyo のテックステージの LT で沢山の人に資料公開予定ありますか?と言われていた LiveOptice の Deep な使い方をよく頂く質問と合わせてご紹介します。 

※本投稿は vExperts Advent Calendar 2023 の 12/10 参加記事となります。https://adventar.org/calendars/8879

LiveOptics ネタは久々の投稿ですが、過去に投稿した LiveOptics 関連の記事は以下。

Live Optics の使い方のポイント


Live Optics の使い方のポイント

LiveOptics とは?

Live Optics とは Dell が開発・提供する無償の IT インフラのアセスメントツールです。

https://www.liveoptics.com/

詳細は上記リンクにある以前の投稿でもご紹介していますが、日々進化していて非常に多くの種類の環境・ワークロードの利用状況を簡単に情報収集し、レポートを自動作成してくれる強力なツールです。

  • Live Optics の主要機能
    • エージェントレスで様々な環境のデータを収集
    • Web ダッシュボード、PowerPoint レポートの出力
    • 詳細な各項目の Excel レポート
    • vSAN Ready Node Sizer などサイジングツールとの連動

vSphere や Hyper-v、KVM など仮想化環境の情報収集の場合はコレクターツールをダウンロードして、Windows マシン上で 最長7日間データ収集を行い、レポート化します。


結構便利なのが、コレクターツールはインストール不要の exe 形式で配布される事、収集対象の機器には標準的な API やプロトコルでアクセスするので対象へのエージェントのインストールが不要な点です。

アセスメントというと結構事前の調整などの手間が発生することが多々ありますが、LiveOptics はその辺りの手間が省けるのが強力な武器になります。

※ コレクター実行用の Windows マシンは物理 PC でも仮想マシンでもどちらでもアセスメント対象に TCP/IP の疎通が取れれば利用可能です。

※ 2023年12月時点のバージョンでは .NET 4.7.2 以降が必要なので、これが標準で含まれる Windows Server 2019 を仮想マシンとして評価モードで動かすことで取得可能です。

RVTools との違い

vSphere 環境の情報取得で利用される無償のツールとして RVTools もあります。

https://www.robware.net/rvtools/

RVTools で取得した情報も vSAN Ready Node Sizer などいにインポートして利用できるので同じような使い方がされますが、RVTools は取得時点のインベントリデータや割当・消費情報をその場で取得、Excel レポートを生成します。

一方、LiveOptics は基本的には一定期間情報を継続取得して、インベントリデータや割当・消費情報に加えてパフォーマンス情報を取得するところに違いがあります。

ちなみに LiveOptics でも 「Inventory Mode」を利用する事で LiveOptics サイトへのデータアップロードは行わず、ローカルでインベントリ情報のみを Excel レポート化する事ができます。


パフォーマンス情報を精査してインフラの問題点、ボトルネックやアンバランスを可視化したい場合には LiveOptics がおすすめです。

LiveOptics の設定ファイルの配置場所

LiveOptics のコレクターを実行した場合のデータは基本的には exe ファイルが置かれたフォルダ上にデータが吐き出されますが、
一部、初回の EULA やコレクターアカウント情報の確認した際の情報のみ %USERPROFILE%\AppData\Local\LiveOptics に記録されます。


作業後、これらのファイル含めて削除したい場合は削除してください。



LiveOptics の利用で困ったときはどこに問い合わせるの?

LiveOptics の利用で問題が起きた場合はサポートサイト https://support.liveoptics.com/ の右上にある「Create Ticket」から簡単に SR を上げられます。


LiveOptics には仮想化環境のアセスメント機能「Optical Prime」以外にも多数の機能があるのでここでは「Oprical Prime」を選択し、英語で問い合わせ内容を記載してください。

24時間以内にはレスが付くので無償とはいえサポートリクエストが出来るのは心強いです。

※ 英語必須


LiveOptics のサポートサイト https://support.liveoptics.com/ は FAQ なども豊富にあるのでサイト内容は確認しておいたほうが良いです。

LiveOptics のアカウントの種類

お客様やパートナー様からよく質問されることとして、「お客様が作成した LiveOptics アカウントで同様の分析ができるのか?」です。

結論から言うと、分析できる項目がだいぶ少なくなるようで、Dell パートナーの企業、Dell 製品と関連する OEM 企業のアカウントに紐づくアカウントで無いと詳細な分析は出来ないようです。

Dell パートナー企業、または OEM 企業に所属する方は新規アカウトを作成する SignUp ページにある https://www.liveoptics.com/signup にて必ず適切なフォームからアカウントを作成してください。

企業の代表管理者がそれぞれにいるはずですので、企業アカウントとしてアクティベーションしてくれるはずです。※ 管理者がわからない場合、SR 上げると教えてくれます。


一般ユーザーの方は「Personal Use」か「IT Professional」でアカウントを作成できます。

アカウントがあると、パートナー企業が実施したアセスメントのダッシュボードを共有してもらう事も出来るのでご自身で詳細を確認したいという方はアカウントを作成してください。


LiveOptics がサポートするアセスメント対象

私がよく使うのは Oprical Prime を利用した仮想化環境などのインフラ分析ですが、現在は AWS や Azure などのパブリッククラウドのネイティブサービスも情報取得が可能です(※ インベントリのみでパフォーマンス分析は未実装)

https://support.liveoptics.com/hc/en-us/articles/360060070093-Optical-Prime-Product-Matrix-

一部の UNIX や MacOS などは取得対象外ですが、多くの企業で利用されてるインフラの殆どが分析可能なので非常に強力です。

どんな情報取得して、どんなレポートが作成可能なのか?

以前の投稿でも取得情報の詳細は紹介しましたので、今回は Web ダッシュボードでまとめられる情報と、Excel、PowerPoint で出力される情報とそこから何を見るべきかポイントを紹介します。

取得可能な情報は以下を参照してください。

分析ダッシュボードの読み方。

サマリダッシュボード


取得対象全体のリソースの合計、平均、消費、95パーセンタイルでの負荷など全体の状況が確認できます。

この情報はあくまでも全体からみた情報なので、規模の大きい環境や異なるワークロードの基盤が混在する環境では情報の解像度がボヤケてしまうので後述するクラスタごと、ワークロードごとのサポートに範囲を絞って確認することをおすすめします。

パフォーマンスダッシュボード


取得したクラスタやホストごとの詳細情報を見ることが出来ます。

バーチャルダッシュボード (仮想化環境の場合のみ)

利用されている仮想マシン全体の分析が確認できます。割当リソースが適切に利用されているか、無駄な仮想マシンが残っていないかを確認できます。



まとめて取得したレポートだがクラスタ単位などで個別レポートにしたい時

一括取得した複数のクラスタのうち一部のクラスタのみのレポートを作成した、取得した中から特定のホストを除外したい、というときはパフォーマンス画面から対象のチェックボックスを外し「再計算」を行うことで集計範囲を簡単に分けることが出来ます。


分けることでサマリダッシュボードの内容も変わるので、取得するときは一括、レポートはクラスタ単位、といった使い方も可能です。

結構重要な操作なので、規模の大きい環境、異なるワークロードが混在する環境ではぜひ対象を分けて分析してみてください。

アセスメントツールの実行におけるセキュリティの考慮

LiveOptics ではアプリ・エージェントのインストール不要で 最低限の情報収集を実施しますが、ホスト名(FQDN)、仮想マシン名、クラスタ名、IP アドレスなどの情報は取得対象が何なのかを判別するために必要な情報なので取得、レポート化に利用されます。

それ以外の仮想マシンやストレージに格納された固有情報にはアクセスせず、収集することはありません。

収集される詳細情報はコレクター exe が格納された Zip ファイルに同梱されている Live Optics_Security_Tech_Brief.pdf 、またはサポートサイトの Security Tech Brief にて参照可能です。


または、


PowerPoint レポートで見るべきポイント

LiveOptics ダッシュボードからエクスポート可能なレポート形式で PowerPoint があります。

ほとんどの場合はサマリ情報を見るだけで終わってしまいますが、出力される利用状況を時間軸でまとめたグラフは非常に有用なので是非活用してください。
※ PowerPoint レポートもクラスタごと、ワークロードごとに絞り込んでから出力することが可能です。

2023年12月時点では画面右上のメニューから「Reports」を選択します。

続いて上から4番目の「Performance」にチェックをいれることで PowerPoint レポートが作成可能です。比較対象のクラウドサービスのリージョンや PowerPoint レポートの言語も日本を指定できるので適宜変更してください。

個人的にレポートに含めておいたほうが良いのは以下の5つ

  • Environment Focus
    • Performance Envelope
    • Inventory Summary
    • 不要 Top 5 Servers Metric Percentages
  • Performance & Storage Focus
    • CPU Performance
    • Storage Capacity
    • IO Performance

これらレポートに含まれる以下のようなグラフを精査することで一週間のリソース利用率の上下動、日中・夜間の傾向把握することで基盤が抱える課題を可視化していくことが可能です。


Excel レポートのカスタマイズ

Excel で出力される Performance レポートは非常に多くの情報を含んでいますが、標準レポートのままではアンバランスやボトルネックを識別し難いので、Excel の条件付き書式などを活用して色分けして分析することをお勧めします。


予め各項目に条件付き書式の設定を入れたテンプレートを用意しておくと、出力した Excel からデータをテキスト形式で貼付するだけでより分かりやすいレポートが簡単に出来上がります。

参考として私が条件付き書式の色付け閾値にしている例です。

  • CPU 利用率 : 80 % 以上を赤、60 % を黄色、0 % を無色の 3 色グラデーション
  • メモリ利用率 : 80 % 以上を赤、60 % を黄色、0 % を無色の 3 色グラデーション
  • IOPS : 最大値を赤、0 ~ 最大値までをグラデーション
  • IO 遅延 : 20 ms 以上を赤、10 ms 以上を黄色、0 ms を無色の 3 色グラデーション
  • Host Boot 時間 : 最大値を赤、0 ~ 最大値までをグラデーション (長期稼働し続けるホストの炙り出し)
  • ゲストメモリ利用 : 48 GB 以上を赤、 32 GB を黄色、0 を無色で 3 色グラデーション
  • ゲスト起動状態 : "PowerOff" を赤
メモリ利用率やディスク利用率は環境ごとに違いますので、割当に対して利用率が適正かをだんだんする材料として利用します。

LiveOptics でここまで見える Deep な使い方

Excel レポートと PowerPoint グラフを組み合わせた分析方法の Tips を紹介します。

ESXi ライフサイクルの把握 : バージョン・起動時間の傾向

Excel の「ESX」シートではホストのメンテナンス状況(Boot Time)、ソフトウェアバージョンの確認の確認が出来ますので、ずっとメンテナンスしていない塩漬け基盤がひと目で確認できます。

ホストのソフトウェアバージョン・起動時間のチェック

  • 起動時間が長期継続 = パッチ適用など再起動が必要な操作が未実施
  • ESXi、vCenter の Build 情報も確認できるため、既知の不具合や脆弱性への対応状況、クラスタ内でのバージョン不一致の確認なども可能

ESXi ホスト間のアンバランスとボトルネックを把握

Excel の「ESX Performance」シートではクラスタ内の各ホストごとのリソース利用率の違いなどが確認できます。

ホスト間のリソースの偏り、負荷の集中、ボトルネックの有無を確認することで全体の無駄や課題を明確にする事ができ、アンバランスがあれば DRS などの負荷均等化する機能の活用が提案可能です。


ESXi ホスト間のリソースバランスチェック

  • クラスタ全体のリソースの不均衡がないか?
  • CPU・メモリが恒常的に高い場合は、スペックの見直し、VM 割り当ての見直しが必要
  • フェイルオーバー専用ホストなど未使用ホストが存在する?

適正 CPU の把握 : CPU 世代と利用率の関係

よく見られる傾向として、非常にハイエンドの CPU を採用しているのに CPU 負荷はずっと低く高くても 10% 〜 20%、低いと一桁といった環境も見られます。

ホストの CPU 負荷とそれに適した CPU モデルが選択されているかを確認することで次の基盤更改時の CPU モデル選定に活用出来ます。


ホストの CPU 利用率と CPU モデルのチェック

  • ホスト間の利用率の不均衡がないか? → DRS で VM の均等な配置を推奨
  • 高スペック CPU を採用したのにほぼ使っていないなどの無駄の確認
    → 次期基盤で適切な CPU サイジングの重要なデータなので SPEC Org 等のベンチマークデータで適正なモデルを検討

vCPU 割当数と vCPU 利用率の把握

クラスタやホストの CPU 利用率には余裕があるのに仮想マシンが 100% に張り付いている、といった事例も多く見られます。

そんな環境をよく見ると、各仮想マシンの割当 vCPU 数が 1〜2 などの少ないことが多々あります。

Excel の「VMs」シートと「VM-Performance」シートの仮想マシン情報を組み合わせる事で、各仮想マシンの割当 vCPU 数と CPU 負荷の状況を合わせて見ることが可能です。

ホストの CPU に余裕があるならば、もう少し仮想マシンに vCPU を割り当てる事で仮想マシンの性能問題を解決出来ると思われます。


VM に割り当た vCPU 数と性能状況、ESXi ホストの余裕を比較 

  • 適切な vCPU の割り当て数を検討
  • Hyper Threading が有効な場合は vCPU 数も偶数個で割り当てる

メモリ消費の実態把握 

Excel の「VMs」シートと「VM-Performance」シートは各仮想マシンごとのメモリよう詳細利用状況がわかります。

基本的には各仮想マシンに割り当てたメモリ (割当メモリ : Provisioned Memory) はゲスト OS 側でファイルキャッシュなどにどんどん消費していき、仮想マシンのメモリの使用率は時間とともに増加 (消費メモリ: Consumed Memory)していきます。

しかし、実際にはほとんどがキャッシュとして使われるだけで頻繁に使われているメモリ領域 (アクティブメモリ : Active Memory) は数%だけという例も多く見られます。
※ Linux OS などで free コマンドを見ると確認できる free と active の差



割当メモリとアクティブ・消費メモリのチェック

  • メモリ割り当てが適正か、Provisioned (割当)、Active (利用) と Consumed (消費) の違いを要確認

メモリの実際の使用状況を把握することで、不要な割当メモリの削減や次期基盤でのサイジングの参考に活用できます。

※ vSphere 環境ではメモリのオーバーコミットが可能ですが、バルーニングなどのメモリの回収動作が作動すると仮想マシンの動作が遅くなるのでサイジング上はメモリは割当メモリ 100% を消費する前提で組むのをお勧めします。

未使用ストレージ領域の把握

Excel の「VMs」シートと「VM-Performance」シート、「Cluster Disks」シートを確認する事で仮想マシンのディスク割当と消費、データストア全体の割当と消費状況を確認できます。

最近は HCI の採用や重複排除ストレージとの相性で Thin 形式の仮想ディスクを利用する場合が多くなっていますが、それでも多くのお客様はオーバーコミットしない Thick 形式や RDM を利用していることが多いです。

仮想マシンの中で実際にどれくらい使用されているのかを LiveOptics により明確にレポートすることが出来るので、ストレージの過剰割当を排除して適切なサイジングが可能になります。

※ 「Cluster Disks」シートの共有データストアの情報は全ホストから見えるストレージパスごとにデータストアが重複して並んでいるように見えるので別途 Pivot デーブル化して平均を出す必要があります。


未使用ストレージ領域の把握

  • Thick 形式のディスクや RDM が確保する未使用容量の把握
  • Thin 形式のディスクの実際の利用率把握

グラフから見つける時間別の傾向把握

Excel レポートには非常に多くの情報が詰まっていますが、「100% の CPU 負荷」や「高 IO 遅延」などのボトルネックがいつ発生しているのか、どのくらい影響があるのかは Excel だけではわかりません。

合わせて確認する事重要なのがダッシュボードや PowerPoint で確認可能な時系列に負荷が整理されたグラフです。

CPU・メモリ・ネットワーク・ストレージでピークがいつ発生しているか時系列で確認することで、Excel レポート上に記録された負荷が正常なものなのか、問題のあるものなのかを判別するヒントになります。

以下の例は CPU 負荷が健全な環境と、日中の負荷が逼迫している環境を並べたものです。

グラフに平日・休日・日中・夜間の指標を追記することでより分かりやすいレポートになります。

以下の例は Excel レポートでは高 IO 遅延が報告されている環境の IO 性能に関するグラフです。


この場合、IO 遅延が高まる時間帯が夜間であること、そのタイミングで大きい IO サイズで高いスループットが確認できていることから、お客様にその時間帯の処理を確認しました。

結果、バックアップや DB のバッチ処理が走っていたため、そのラージ IO サイズが原因の IO 遅延の増加が推測できることで、Excel レポート上の最大 IO 遅延は許容範囲内であることがわかりました。

※ IO サイズが大きければ IO 遅延も大きくなるのは当然なので、この様な場合の遅延はノイズとして無視して良い場合が多い

Live Optics データと各種サイジングツールとの連携

LiveOptics の便利なところは取得したデータをそのまま vSAN Ready Node Sizer などにエクスポートしてサイジング情報として活用出来たり、
Excel レポートを取り込むことで VMC Sizer や VxRail Sizer でもサイジング情報として活用出来るところです。

せっかくなので取得したデータを利用してサイジングツールをより高い精度で活用してみてください。


サイジングツールの活用方法についても以前 Webinar でお話させていただいたのですが、ここ1年で vSAN 8.0 の ESA に対応するなどサイジングツールも新しくなっているので後日別の投稿で最新情報としてアップしたいと思います。



0 件のコメント:

コメントを投稿

過去30日でアクセスの多い投稿