未解決
Moderator
•
749 メッセージ
0
82
2024年11月26日 09:47
パートナー様寄稿)ダブルのデータ削減効果は? PowerScaleのInline Data ReductionとSmartDedupe
こんにちは。CTCの廣原です。
今回は、PowerScaleのデータ削減機能であるIDR(Inline Data Reduction)とSmartDedupeの効果について書いていこうと思います。
はじめに
PowerScaleは、PowerEdgeの堅牢なハードウェアを得てリブランドした、元Isilonシリーズのストレージです。スケールアウト可能な非構造化データ用の、中~大規模向けストレージの代表格と言えるでしょう。
PowerScaleでは、従来からあるSmartDedupeに加え、IDR(Inline Data Reduction)がサポート(※)されました。
※IDRは特定のPowerScale/IsilonおよびOneFSバージョンの組み合わせでのみサポートされます。詳細は後述のホワイトペーパーを参照。
SmartDedupeは従来のIsilonからある機能で、ドライブ上に書き込まれたデータをスキャンして重複排除が行われます。
これに対しIDRは、ドライブに書き込まれる前に、インラインでData Reduction(下記の3つのこと)が行われます。
・ゼロブロックの削除
・圧縮
・重複排除
※SmartDedupe、IDRの詳細なロジックはホワイトペーパーをご参照ください。
SmartDedupeのホワイトペーパー
IDRのホワイトペーパー
「ドライブに書き込まれる前とはどういうこと?」と思う方もいらっしゃるでしょう。これは別にネットワーク経路上でデータ削減が行われるわけではなく、いったんPowerScaleノードのメモリ(Write Cache)でデータを受け、 ここでData Reduction(上記3つのこと)が行われ、ドライブに書き込みが行われることを意味します。
検証内容
これまでのSmartDedupeでも重複排除はされていましたが、今回はIDRがサポートされたことによる効果を確認します。
IDRとSmartDedupeとの組み合わせで更なるデータ削減効果が期待できるため、その確認も行います。
検証の目的とゴール
・データ削減効果は期待できますが、今回の検証は、あえて「こんなにデータ削減ができます!」というものを示すものではございません。
・目的はデータ削減できるかどうかはデータ次第ということを知っていただくことであり、ゴールは記事を読んでいただいたあとに、お客様環境に応じた検証の必要性を理解いただくことです。

検証構成
物理構成、論理構成ともに、シンプルに下記のように構成しています。
・PowerScale F200 4台(OneFS 9.4.0.5)のクラスター構成
・BEスイッチ、FEスイッチは10GbEで接続
・PowerScale上にSMB共有を作成し、Windowsサーバーから共有へファイルを書き込み
物理構成

論理構成

実施した内容は以下の2つです。
1)IDRのみの効果の確認(SmartDedupe実施なし)
2)IDRされたものに、さらにSmartDedupeのジョブを実行し効果の確認
それでは検証スタート
1)はじめに、PowerScaleではIDRが有効になっていることを確認します。(デフォルトで有効です)
SMBの共有へ、同一ファイル(約8.2GBファイルのISOファイル。ファイルAとします。)を書き込み、データ削減効果を確認してみます。
※書き込みに使用したファイルは、単一ファイルではデータ削減が効きにくいとされるバイナリファイル(ISOファイル)を利用しています。
[ファイル書き込み前]
同一ファイルを4つ書き込みしてみます。
[ファイル書き込み直後]
Recent Writesは、コマンドを実行する5分前の情報、Cluster Data Reductionはクラスター全体の統計です。
Data reduction ratioをみると、データ削減がしやすい書き込みでは、きちんとデータ削減が効いていることが確認できます。
注) Cluster Data Reductionの表示について、リアルタイム性はありません。一定時間を置くと数値は変化するため、1回のコマンド結果の数値自体で総合的にデータ削減を判断できるものではないのでご注意ください。
別のファイル(2.3GB)を書き込みしてみます。(こちらもISOファイル)
[ファイル書き込み直後]
2.3GBのファイルサイズに対し、変化は2.12GB(13.73 – 11.61)であるため、あまりデータ削減はされていないことが確認できます。
(前向きな言い方をすれば、データ削減されにくい中でも少しデータ削減は効いていると言えます。)
こちらも想定通りです。
2)それではこの状態でSmartDedupeのジョブを実行実施してみます。
[ジョブ実行後]
ほぼ変化していないように見える(※)ため、ジョブを見てみます。 ※前述の「注)」参照
[SmartDedupe実行後のジョブ結果]
ジョブは完了していますが、Scanned filesが0となっています。
GUIからジョブレポートの詳細をみてみると、スキップされていることがわかりました。
(isi job reports view –verboseではSkipped filesが表示されないためGUIで確認しています)
まとめ
SmartDedupeではファイルサイズが小さすぎるもの(32KB未満のファイル)はスキップされる仕様ですが、今回のようにファイルサイズが大きめであり、 そもそもデータ削減されにくい性質のファイルで既にIDRでデータ削減されている場合にはスキップされてしまう結果となりました。
IDRとSmartDedupeはアルゴリズムが異なるため、IDR後のデータでもSmartDedupeの効果があることはもちろん期待ができますが、 ファイル特性によっては効果を保証するものではないため、その点POC等で事前にご確認いただくことをお勧めいたします。
CTCではPowerScale検証機のお貸出しが可能です。是非弊社(telbiz-product@ctc-g.co.jp)までご相談ください。
貸出用検証機情報
・PowerScale F200(960GB NVMe SSD 4本搭載) x4台
・PowerSwitch S4128F-ON(10GbE x28、100Gbe x2) x2台 ※BEスイッチ用
※その他FEスイッチ(PowerSwitch)、サーバ(PowerEdge)、ストレージ(UnityXT、PowerStore、PowerProtectDD)、HCI(VxRAIL、XC)も貸出可能です。
また、グループ会社のCTCテクノロジーにて、構築・保守・運用を行っております。こちらも是非ご相談ください。