未解決
Community Manager
•
7.2K メッセージ
0
43
2025年7月7日 05:29
DellのAIストレージについて
*こちらの記事は2025年7月に開催された[Ask The Experts] OneFS 9.11新機能 & ObjectScale特集からの内容になります。
オリジナル投稿者:keny6
DellのAIストレージについて
Dell Technologies インフラストラクチャーソリューションズSE統括本部 データプラットフォーム ソリューションズの矢ヶ部です。
さて、この数年生成AIブームが続いていますが、各社次々と新しい概念、製品やソリューションを発表しています。Dellも例外ではなく、新しい発表があるたびに、前に発表していたものとの違いが何なのか混乱することがあります。
今回はDellのAIストレージへのアプローチについて、Dellが発表している用語を交えながら簡単にまとめたいと思います。
まずはAIのワークフローのおさらいです。
データの収集からRAGとの連携まで、次のようになっています。
求められる性能や機能はそれぞれのステップで異なりますが、例えばGPUaaSのような構成ではあらゆる用途に耐えられるよう特にトレーニング時のIO性能に注目が集まります。
全体を通してみると、IOパフォーマンス、拡張性、セキュリティ、管理機能がそれぞれバランスよく必要です。
- パフォーマンス
-
- 大量のデータを扱う処理に耐えうる性能
- 読み取りだけでなくチェックポイント時のWrite性能も重要
- NVIDIA SuperPOD認定
- NVIDIA NCP認定
- 拡張性
-
- 容量も性能も増強
- サービスを継続したままの増設
- セキュリティ
-
- ロールベースのアクセス制御、アクセス分離(認証の分離)、通信の暗号化、STIG、各種セキュリティ認証、マルウェア/ランサム対策
- その他の機能
-
- スナップショット/レプリケーション
- Quota
- マルチプロトコル
- メタデータの外部エクスポート
すべてのステップでDellがPowerScaleをお勧めしていることは、ご存じの通りです。
もちろん、その他のストレージ製品が使えないということはありません。また、各ステップを1つだけの製品でカバーする必要もありません。しかしDell PowerScaleにはIsilonと呼ばれていた時代から一貫して「Data In-Place」という概念があります。
「Data In-Place」とは、データを物理的に移動させずに、その場(既存の保存先)で利用・管理・分析することができる仕組みや特性を指します。
例えばAさんが保存したファイルをBさんが編集するように、生成AIに限らず、どんな用途でも大まかに処理の流れがあります。データ量が大きく多くなるほど、データの移動(コピー)には時間がかかりますので、できるだけファイルをPowerScaleから移動せずに処理できれば効率的というわけです。またNASコントローラーが1つしかない製品では、Aさんの処理、Bさんの処理、Cさんの処理・・・がそれぞれ連続で行われる(つまり全員が同時に仕事をする)と負荷に耐えられないかもしれませんが、PowerScaleでは複数のノードが稼働するため、スムーズな処理が可能です。
ここでは4つのポイント(図中の①から④)についてどのようなストレージが最適なのかについて考えていきたいと思います。
① データ保存
AIの観点でわかりやすいのはトレーニングデータの蓄積用ですが、トレーニングデータの元となるデータとして、普段業務で使用しているNASのデータを使うこともあります。
そこでこのステップで求められるポイントは、性能、拡張性、堅牢性、管理性、セキュリティ、接続性、コストなど、AI以外の一般的なストレージ要件と同じですね。
② Data Processing:データ活用(活用準備)
このステップでは、データを集めたり、集めたデータをトレーニング用に加工します。例えば、PowerScale内のファイルはもちろん、他のシステムのデータベースからトレーニングのためのデータを取得し、加工します。
他のシステムのデータベースからデータを取得し加工するのに強力なツールがDell Data Lakehouseです。Dell Data LakehouseはSQLを使用して他のデータベースからデータを取得します。
対象となるデータソース(データベース)が複数であっても、Dell Data Lakehouseに1つのSQLを入力するだけでデータを収集し、加工し、目的のテーブルに保存します。すべてオンメモリで処理され、結果の保存先にはオブジェクトストレージ(S3プロトコル)を使います。
ここでは、Dellのオブジェクトストレージ ObjectScaleはもちろん、PowerScaleはS3プロトコルをサポートしているためそれも利用可能です。
③ Training: IO性能
ここは最も性能を求められるステップだと思いがちですが、実は目的のモデルにより必要な性能は大きくばらつきます。
例えば、医療画像のための3D画像分割を行いたい場合、1つのトレーニングデータも大きく、トレーニングデータの総容量も多くなります。この場合、GPUが求めるReadスループットは毎秒GBを超えます。一方で、言語モデルの場合、1つのトレーニングデータは数KB、トレーニングデータの総容量も画像と比べるとかなり少なくなります。GPUが求めるReadスループットは毎秒数MB程度です。
AIストレージというとAll Flashを前提にしがちですが、企業向けのAIストレージを検討する場合は、Hybridモデルでも問題なく利用できそうです。PowerScaleの場合、All FlashモデルとHybridモデルの階層構成もサポートしていますので、コストと性能のバランスを図った構成も考えられます。
性能を担保された構成をご所望の場合は、NVIDIA Certified Storage、BasePOD/SuperPOD、Cloud Partner Program(NCP)のような認定を受けた製品を選択することができます。
Dellの場合、PowerScale F710ですべての認定を受けています。例えばNCPの場合、4SU(Scalable Unit)あたりの要求性能は、160GB/sのRead、80GB/sのWriteです。これを10ノードのPowerScale F710で満たします。
Guidance for Standard HPS aggregate storage performance
PowerScale F710 storage sizing for NCP deployments
ここで注意点があります。
PowerScaleの販売に携わる方はお気づきかもしれませんが、PowerSizer(DellのPowerScale用サイジングツール)で10ノード構成のF710の性能を見ると、80GB/sのWrite要件を満たしません (Readは満たしている)。これは、NVIDIAさんのNCP認定時のテスト内容と、Dellのテスト内容が違っていることが原因です。SuperPODやNCP認定ではNVIDIAさんのベンチマークできちんと結果を確認していますので、ご安心ください。
DellのPowerSizerはOneFSのバージョンが変わると性能が変わることがありますので、今はNCPの計測データのほうが高速でも、いずれPoweSizerの性能値のほうが上回る可能性があります。AI用途の場合はSuperPOD/NCPの性能を正としながらも、PowerSizerの情報と比較し、より新しい情報を参照するようにしましょう。
わからなくなった場合は、Dellの営業までご連絡ください。
現在、すべてのステップについてPowerScaleで対応可能ですが、DellではGPUaaSのような大規模AI基盤において、トレーニングで求められる性能が近い将来さらに高まると考えています。
そこで計画しているのがProject Lightningです。
Project Lightningは並列ファイルシステムであり、PowerScaleのようなNASではありません。クライアント側に専用のドライバソフトウェアをインストールし、クライアントからはローカルファイルシステムとして認識されます。開発途中で計測された性能では、他社の並列ファイルシステムと比較して最大2倍程度のスループットがでるともいわれています。PowerScaleとは異なるファイルシステムのため、SmartPools(PowerScale間の階層機能)は利用できませんが、PowerScaleとファイルをやり取りする仕組みも検討されています。
④ RAG連携
生成AIが外部データを検索して回答の精度を高める技術として、RAGがあります。LLM(大規模言語モデル)が知らない情報でも、データベースから検索した情報を元に回答を生成できます。RAGは情報を蓄積するためのデータベースを持っています。このデータベースを最新に保つことで正確な情報を維持できます。このデータベースを最新に保つには、定期的に他のデータベースから構造化データを読み込むことや、ファイルを読み込むことが必要です。
ファイルを読み込む場合、RAGのシステムは最新のファイルがどこにあるか(ファイルのフルPath)を知る必要があります。例えば、PowerScaleに多くの社員が日々保存した業務ファイルをRAGに読み込むことを想像してください。それぞれの社員は自分のフォルダを利用するため、コマンドを駆使して新しいファイル/更新されたファイルの一覧を作り出すことは大きな手間と時間を要します。
そこで、PowerScaleでは「MetadataIQ」という機能で、ファイルのメタデータ(ファイルの名前や、Pathやタイムスタンプなどの属性情報)を外部のデータベース(Elasticsearch)へ取り出すことにしました。一度データベースに入ると、SQLで簡単に「昨日更新/新規作成されたドキュメント」ファイルの一覧を作り出すことができます。この一覧を使いRAGが読み込むべきファイルを特定し、RAGのデータベースに反映します。日々「ファイルの更新」、「メタデータのエクスポート」、「RAGデータベースの取り込み」を繰り返すことでRAGのデータベースを最新に保つことができます。
Dellのアプローチ:AI FactoryとAI Factory with NVIDIA
Dellでは、データの収集からモデル作成・運用、ビジネス成果を得るまでの流れを工場に例えて「Dell AI Factory」と呼んでいます。そこで必要になるインフラ、サービス、エコシステム(AI関連のパートナー企業の製品)が工場の生産ラインに相当します。
これにNVIDIAさんと協力して具体的なDellとNVIDIAのインフラ製品やサービスを組み合わせたソリューションセットを「AI Factory with NVIDIA」と呼んでいます。AIワークロードに最適化された製品、ソリューション、サービスのポートフォリオで構成されたT-Shirt Sizingアプローチを取っています。ハードウェアが1台のサーバだけの構成から、GPUサーバ/ネットワークスイッチ/ストレージを含む大きな構成まで用意されていますので、お客様が実現したい内容にあわせて最適な組み合わせを選ぶことができます。全て「Validated Design」ですので構成後にトラブルになることがありません。また、ネットワークケーブルなど小物も含めて提供されます。
以上が、DellのAIストレージに対するアプローチの概要です。私たちの目標は、皆様のAIワークロードを最適化し、効率的かつ安全にデータを管理するための最適なソリューションを提供することです。Dell Technologiesは、常に最新の技術と革新的なソリューションを提供し続けることで、皆様のビジネスの成功をサポートいたします。
今後とも、どうぞよろしくお願い申し上げます。