新しい会話を開始

未解決

Community Manager

 • 

7.2K メッセージ

106

2025年8月29日 03:45

[Ask The Experts] Dell AI Data Platformはじめました

衝撃的な記事から18か月!

All AIを掲げるDellTechnologiesはインフラだけではなくAIのためのシステムをまるっと網羅してマーケットに殴り込みをかけるようです。

でも実際どういう仕組みなの?何が動いているの?そもそもAIするには何が必要なの?湧き上がるギモンに答えをくれるぴったりの人を見つけた!

ギモン解消の鍵となるDell AI Data PlatformについてExpertさんにしっかり教えてもらいましょう。 


コンテンツ目次

ATE Dell AI Data Platform(1)【誕生の背景】

ATE Dell AI Data Platform(2)【概要】

NEW!! ATE Dell AI Data Platform(3)【配置】

期間:9月1日から2週間 

質問も9月1日からどんどん投稿してください!

エキスパート

Yasui, Kenji (​​kenji_yasui​​)  ​

写真はなんとカプセルトイで作成したご自身(のつもり)と

Isilonのツーショット!

Isilon・PowerScaleをこよなく愛し、常に最新の技術を追いかけ試して世に伝えてきた人。それはこれまで35回を数えたDataPlatformTech ブログを見れば一目瞭然!

ストレージの世界でデータを中心に見続けてきた彼は、現在DellTechnologiesで唯一AIの全体像を説明できる人なのかもしれない。



1 Rookie

 • 

33 メッセージ

2025年8月31日 12:54

ATE Dell AI Data Platform(1)【誕生の背景】

こんにちは。Dell Technologiesでデータプラットフォーム製品を担当している安井と申します。
冷やし中華Dell AI Data Platformはじめました」と題した今回のAsk The Experts(ATE)は、2週間にわたり『Dell AI Data Platform』をご紹介します。その前に、そもそも「Dell AI Data Platformって何?」と思われたかたが9割だと思います。ご安心ください、今回は9割のかた向けにDell AI Data Platformをできるだけわかりやすくお届けする企画となっています。
本ATEでは、2日に1回(計6回投稿予定)のペースでテーマごとに1つずつ紹介してまいります。皆様のご理解の一助となれば幸いですので、どうぞお付き合いくださいますようお願いいたします。

先日、2025 CRN Tech Innovator Awardsを受賞(※1)した、この革新的なDell AI Data Platformを一言で表すと、『AIとデータ活用に最適な、オープンでフレキシブルでセキュアな統合データプラットフォーム』です。Dell AI Data Platformはデータの「配置」、「処理」、「保護」の3つの柱のもと、構造化・半構造化・非構造化データをサポートし、Dell AI Factoryと統合してデータの準備から高度な AI モデルの実行に至るまでAI ライフサイクル全体をサポートします。


早速、Dell AI Data Platformの内容に入りたいところですが、その前に少しだけDell AI Data Platform誕生の背景についてお話します。既に皆様もお感じだと思いますが、AIの需要が高まるにつれてデータマネジメントやデータアーキテクチャの課題は増大しています。

上記のように多くの組織では、支店や遠隔地、各機能部門においてデータが生成・蓄積されており、これらの情報は企業システムやハイパースケーラーに分散しています。このようなデータのサイロ化は以前から課題となっていますが、AIの導入・活用が進む現在では影響がより顕著となっています。
AIの導入・活用においては高品質なデータセットへのアクセスが大きく依存します。そのため、横断的な統合データアクセスの重要性が今まで以上に高まっています。また、サイロ化と同時に下記のようなデータマネジメントの課題が挙げられます。

複雑さと量
多種多様かつ大量なデータは、統合プロセスの煩雑さと処理性能のボトルネックをもたらし、データの活用が遅れる原因となります。AI/MLや生成AIのワークロードを支えるためには、より強力なコンピューティングやストレージが不可欠です。


発見と検索可能性
コンテキストとなるメタデータの不足や多様なデータを連携させる難かしさにより、必要なデータの発見や検索が妨げられます。複数のデータソース間で効果的にクエリを実行する技術的課題も、依然として大きくデータ利活用の障壁となっています。


品質と一貫性
データフォーマットに一貫性がなく、不完全または手作業によるミスを含むデータは信頼性を著しく損ないます。正確な意思決定やAI/MLや生成AI用のデータとするためには、データ品質の担保と標準化の徹底が不可欠です。


ガバナンスとセキュリティ
不正アクセスや情報漏洩などのリスクを防止し、データの機密性・完全性・可用性を確保するためには、厳格な管理体制の整備とコンプライアンスの徹底が不可欠です。運用面と技術面の両方で高いセキュリティ水準を維持することが重要となります。

また、AIはここ数年で急速に発展しています。そのため、従来のデータアーキテクチャでは、最新のデータおよびAIのニーズによる規模や複雑さへの対応が困難となっています。

中央集約型
AIワークロードは、構造化から画像や動画などの非構造化まで多様かつ大量なデータで成り立ちます。中央集約型アーキテクチャは一箇所でデータを処理することを前提としますが、エッジやクラウドなど複数の場所に分散されているデータはペタバイト規模となるため、データ統合は非現実的です。また、データの移動はコストや時間が膨大となり、ボトルネックが生じて効率的な運用が困難です。

サイロ化
冒頭でも少し触れましたが、データの生成場所や部門単位でデータが分断・孤立することで「サイロ」が発生します。これによりデータ統合や分析・利活用が困難となり、多様なデータが求められるAI導入の妨げとなります。さらに、データ形式や品質の不一致が生じ、統合作業の複雑化やデータの信頼性低下を招きます。

柔軟性の欠如
現在のAIでは多様な形式(構造化・半構造化・非構造化)を利用します。従来のデータ アーキテクチャは主に構造化データへの対応を前提として設計されているため、多様なデータ形式への柔軟な対応が困難です。これが柔軟性の欠如やイノベーションの遅延を招きます。

独自技術
ベンダの独自技術による閉鎖的な環境では新しいシステムやツールとの互換性が低く、カスタマイズ無く統合することが困難です。そのためデータプラットフォームの柔軟性が損なわれ運用負荷が増加し、新技術の導入やデータ活用が制限されます。結果的に組織のイノベーションが停滞し、競争力維持の課題を抱えることになります。

これらの課題に対応すべくDell AI Data Platformは誕生しました。Dell AI Data Platformはデータのサイロ化を解消し、コストのかかるリップ&リプレース(※2)を回避し、ITおよびデータチームがAI技術を取り入れながら既存の投資を活用できるようにする最新(モダン)のデータ アーキテクチャを実現します。

以上、Dell AI Data Platform 【誕生の背景】となります。ご覧頂きましてありがとうございました。
次回、「Dell AI Data Platform【概要】」は9月3日の投稿を予定しております。

-----
※1 CRNで毎年実施されているITチャネル向けに大きな価値と革新性をもたらす製品やソリューションを表彰するアワードです。一部の界隈ではIT業界のベストジーニスト賞と呼ばれています。

Dell AI Data Platform Wins 2025 CRN Tech Innovators Award | Dell

※2 既存のシステムや機器を完全に撤去し、新しいものに置き換える方式です。

1 Rookie

 • 

33 メッセージ

2025年9月2日 13:24

ATE Dell AI Data Platform(2)【概要】

こんにちは。今週来週でDell AI Data Platformをご紹介しております。今回はDell AI Data Platformの概要についてご紹介します。前回ご紹介したデータマネジメントやデータアーキテクチャの課題を解消するためには、時代とともに組織のデータ戦略もアップデートする必要があります。Dell AI Data Platformでは、「オープン」、「フレキシブル」、「セキュア」という設計原則に基づき、最新のデータアーキテクチャを提供することで、組織がデータを最大限に活用し新たな競争力を生み出すことを支援します。

オープン
オープンアーキテクチャは、多様なデータソースやテクノロジとのシームレスな統合と、事実上の標準となっているIcebergやDelta Lakeなどのテーブルフォーマット、ParquetやAvro、ORCなど広く使われているファイルフォーマットによる相互運用性を実現します。これにより、ベンダ独自技術への依存を減らせるだけでなく、新たな技術やツール、手法を柔軟に取り入れ、イノベーション推進とデータのサイロ解消に貢献します。

フレキシブル
Dell AI Data Platformは、構造化・半構造化・非構造化データを効率良く扱え、データを元の場所に保持したままAIやデータ活用が可能です。また、モジュール式アーキテクチャの採用により、必要な機能や性能を段階的に拡張できるため、既存システムを一新することなく業務や要件に応じてインフラを柔軟かつ迅速に最適化できます。さらに、マルチエンジンアーキテクチャを採用しており、用途に応じて分散(MPP型)クエリエンジンやApache Sparkベースの分散処理エンジン(※1)を柔軟に選択できます。(※2)

セキュア
Dell AI Data Platformは、データのライフサイクル全体を通じた保護を実現するため、ロールベースのアクセスコントロールや、複数レイヤにおける暗号化、LLMモデルに対するガバナンス、イミュータブルスナップショットなどを実装しています。また、AIによる高度な脅威検出やランサムウェア対策、有事の際のサイバーレジリエンスなども特長があります。機密情報や個人情報のデータマスキングによるコンプライアンス要件への対応を実現し、安全かつ責任あるデータプラットフォームを提供します。

続いて、Dell AI Data Platformのアーキテクチャについてご紹介します。下記がDell AI Data Platformの論理アーキテクチャを一枚絵で表したものですが、初見だと複雑怪奇な感じがして何だか無限城(※3)にでも踏み入れてしまったような感覚をお持ちになるかもしれませんので、1つずつ紐解いていきます。

3つの大きな四角のうち、左端は分散しているデータソースを表しており、右端はデータコンシューマ(AIエコシステムやAIモデルの開発やデータ分析を行う利用者)を表しています。中央の大きな四角がDell AI Data Platformですが、上段の「パートナエコシステム」とは、サードパーティのデータガバナンス製品やデータカタログツールを利用する場合やオープンスタンダードなワークフロー管理ツール、クラウドサービスなどとの連携を意味しています。(※4)

データマネジメントサービス」とは、Dell AI Data Platformの中枢を担うサービス群であり、メタデータ管理、データカタログ(データプロダクト)、アクセスコントロール、監査機能などにより、データ統制(ガバナンス)、品質管理、データライフサイクル(データの作成から削除されるまで)、セキュリティなどのデータ管理機能を包括的に提供します。これにより、組織内外の大量かつ多様なデータについて、セキュリティとコンプライアンスを維持しながら各種サービスを提供します。


次の段の「ユーザエクスペリエンスの統合」では、AIおよびデータ活用に必要な複数のサービスを、1つの統合されたプラットフォームとしてデータコンシューマに提供します。
非構造化データの準備」は、テキスト・画像・音声・動画・IoTなどの非構造化データをAIや分析に活用するために前処理(適切な形へ変換・準備)する機能で、メタデータ抽出による構造化やタグ付け、インデックスの生成を提供します。
データエンジン」は、大量かつ多様なデータに対して、アドホッククエリやバッチ、ストリーム処理を高速かつ柔軟に取得・変換・分析できる、スケールアウトに対応したマルチエンジン郡を表しています。

ITサービス」は、プラットフォームの運用・監視・保守を提供します。

私が担当しているデータプラットフォーム製品を、このDell AI Data Platform論理アーキテクチャに当てはめると、中央下段にある3つの四角「アナリティクスエンジン」、「データストレージ」、「サイバープロテクション」が、左から順にDell Data Lakehouse、Dell PowerScale・ObjectScale、PowerScale Cybersecurity Suite(黄色の枠線たち)となり、次回からご紹介するDell AI Data Platformの基本要素であるデータの「処理(PROCESS)」、「配置(PLACE)」、「保護(PROTECT)」に密接に関係してきます。

パブリッククラウドは、利用者に多様なサービスや柔軟な選択肢を提供します。一方で、オンプレミス環境やハイブリッドクラウド環境では、一般的に最新のデータアーキテクチャを構築・運用することが一般的に難しいとされています。
Dell AI Data Platformは、各コンポーネントが疎結合構造であるため新しい技術や機能、ツールの追加も柔軟に行うことができます。また、外部ネットワークから切り離した「エアギャップ」環境においても、AIやデータ分析のための安全なプラットフォームを構築できるため、データ主権(データの所在や管理を自組織で統制)の確保が求められる組織にとって最適な選択肢となります。

次回以降のATEでは、データの「配置(PLACE)」、「処理(PROCESS)」、「保護(PROTECT)」という3つの柱(頭にPが付Dell AI Data Platformの基本要素)に焦点を当て1つずつ関連する製品について触れてながらご紹介します。

以上、Dell AI Data Platform 【概要】となります。ご覧頂きましてありがとうございました。
次回、「Dell AI Data Platform【配置】」は9月5日の投稿を予定しております。

-----
※1 Dell Data Lakehouseは製品リリース当初はDell Data Analytics Engine(Starburst/Trinoベース)のみでしたが、2025年4月にDell Data Processing Engine(Apache Sparkベース)をリリースしました。

‎DataPlatformTech 第33回 Dell Data Processing Engineリリース | DELL Technologies

※2 2025年下半期に「非構造化データエンジン(Dell Unstructured Data Engine)」のリリースが予定されています。

デル・テクノロジーズ、「Dell AI Data Platform」の機能を強化 NVIDIAとElastic社との連携でデータを活用したエンタープライズAI推進を加速 | Dell Technologies

※3 現在映画が上映されている某有名漫画に出てくる敵の本拠地です。

※4 既存でご利用されているデータプラットフォームとの連携や、Dell AI Data Platformで不足している機能を補完します。

1 Rookie

 • 

33 メッセージ

2025年9月4日 11:16

ATE Dell AI Data Platform(3)【配置】

こんにちは。今週来週でDell AI Data Platformをご紹介しております。第3回ではデータ配置(PLACE)についてご紹介します。データ配置とは、必要なデータを適切な場所に保存して効率良く管理しデータ処理(AIをはじめとしたデータコンシューマ)に提供できるようにすることを指します。特にAIのデータパイプラインにおいては、スピーディなデータ取り込みとアクセスが不可欠です。Dell AI Data Platformでは、AIワークロードにおける効率的なデータ管理と処理を実現するため、業界をリードする非構造化データソリューション「PowerScale」と「ObjectScale(※1)」をプラットフォームのテクノロジとして採用しています。PowerScaleやObjectScaleにより、エッジ、コア、クラウド問わずシームレスかつ高速に適切な場所へデータ配置を行うことが可能です。

PowerScaleとObjectScaleはそれぞれ特徴がありますが、今回はスケールアウトファイル・オブジェクトの先駆者かつリーダであるPowerScaleを中心にご紹介します。PowerScaleはIsilonと呼ばれた時からデータプラットフォームのストレージとして採用されてきました。世の中にデータレイクという言葉が浸透し始めた時にマルチプロトコル(NFS、SMB、HDFS、S3、S3Aなど)でファイルの相互運用をサポートし、いち早くパブリッククラウドとの連携(※2)を実現しました。また、Hadoopが全盛期だった頃にはコンピュートとストレージ(データ)を分離するアーキテクチャを提唱し、コンピュートとストレージのライフサイクルを分離(※3)してデータプラットフォームの利便性の向上や運用の低減を実現してきました。

PowerScaleはAI時代の到来とともに着実に進化を続けており、世界初のEthernetベースストレージとしてNVIDIA DGX SuperPODの認定を取得し高いパフォーマンスを実現しています。(※4)また、PowerScaleに保存されたデータは、生成AIの大規模言語モデル(LLM)におけるRAG(Retrieval-Augmented Generation)用途でも活用できる機能も提供しています。(※5)


Dell AI Data Platformのような広義のデータプラットフォームとしてのストレージと考えた場合、PowerScaleであればデータレイクハウスとAIストレージの両方の用途に対応することが可能です。通常データレイクには価値の高いデータは一部のみで、残りの多くは主に保管を目的としているケースが一般的です。PowerScaleではモデルの混在によりフラッシュドライブとハードディスクドライブを組み合わせて構成することができ、バケット・ディレクトリ単位で保存先を指定(データ配置)することが可能です。例えば、メダリオンアーキテクチャの構成を採る際に、ブロンズ(生データ)をアーカイブモデル、シルバー(前処理後のデータ)をハイブリッドモデル、ゴールド(統合データ)をオールフラッシュモデルにすることができます。さらに、自動階層化技術で鮮度の低いデータをフラッシュからハードディスクドライブに移すこともできるので、コスト効率の高いストレージ運用が実現できます。


近年、AI(GPU)サーバ向けのストレージの観点では性能について注目が集まりがちですが、性能はもちろんのこと、AIに必要なデータを確実に届けるためには、可用性や継続可能な運用(シンプルかつ容易なシステム更改など)ができる製品が望ましいです。(※6)エンタープライズのストレージに求められる要件は、時代が移り変わっても根本的には大きく変化していません。PowerScaleは、20年以上にわたり培われた実績を持つストレージ製品です。シンプルな管理機能により、膨大なデータも効率良く運用することが可能です。(※7)

質の高いデータを効果的にAIへ供給するという点では、オールフラッシュモデルでは200GbE Ethernetのサポートや122TB QLCドライブに対応(※8)しております。また、データマネジメントにおけるデータ連携という点では、PowerScaleのレプリケーション機能やデータコピー機能が有効です。ハイブリッドまたはマルチクラウド環境を想定したAIパイプラインを構築する際には、エッジ側にPowerScaleを配置し、クラウド側でデータを利活用するといった運用も可能です。
この場合、PowerScaleをパブリッククラウド上に展開しエッジとパブリッククラウドのPowerScale間でのレプリケーション、もしくはエッジのPowerScaleからクラウドのオブジェクトストレージへのデータコピー(※9)を行うことができます。これにより、エッジ側で生成されたデータを効率良くパブリッククラウドへ集約し、AIやデータ分析など多様な用途に活用できます。

今回のデータの配置に関しては、Dell Technologiesが得意としているデータストレージ(PowerScale)の話がメインでしたので、知っている内容も多かったのではないでしょうか?なお、Dell Technologiesは最近、顧客満足度調査のストレージ部門で1位を獲得いたしました。(※10)

以上、Dell AI Data Platform 【配置】となります。ご覧頂きましてありがとうございました。(今回は「※」が多くなってしまいました🙇‍♂️)
次回、「Dell AI Data Platform【処理】」は9月8日の投稿を予定しております。

-----
※1 以前はDell ECSと呼ばれていました。ObjectScaleは下記記事を参考にお試しいただけます。

ObjectScale CommunityEdition 4.0(体験版)のインストール手順

※2 約10年前(2015年)にリリースされたOneFS 8.0でCloudPoolsが実装されました。

‎IsilonianTech 第9回 ISILON + ECS = UNLIMITED ~Isilon CloudPools~ | DELL Technologies

※3 少し古い記事ですがコンピュートとストレージの分離については下記を参照ください。

‎IsilonianTech 第7回 Isilonとデータアナリティクス ~Cloudera編~ | DELL Technologies

‎IsilonianTech 第10回 Isilonとデータアナリティクス ~Isilon Ambari Management Pack~ | DELL Technologies

‎IsilonianTech 第16回 PowerScaleとデータアナリティクス ~CDP編~ | DELL Technologies

※4 PowerScaleは今後もAI対応ストレージとして進化し続けます。

DellのAIストレージについて

NVIDIA DGX SuperPODで 認定された世界初のEthernetベース ストレージ ソリューション

※5 PowerScaleに実装されているMetadataIQを用いてPowerScale内に存在するファイルのメタデータをエクスポートしクエリすることが可能です。また、MetadataIQと連携可能なPowerScale RAG ConnectorをGitHubに公開しています。

‎DataPlatformTech 第31回 PowerScaleのメタデータ管理 ~MetadataIQ~ | DELL Technologies

GitHub - dell/powerscale-rag-connector: Dell PowerScale RAG Connector

※6 運用面においてはInsightIQというPowerScaleの性能・容量を管理する機能が一役買っています。

[新InsightIQ6.0]

※7 PowerScaleは20年以上の実績があり定期的に新モデルをリリースしながら進化し続けています。

お待たせしました! 新モデル登場!

※8 61TBや122TBの大容量ドライブには新しくSoftware Journal Mirroringというデータ保護の仕組みが実装されています。

OneFS 9.11の新機能「Software Journal Mirroring (SJM)」

※9 SmartSyncという機能でパブリッククラウドのストレージに対してデータ連携やバックアップが可能です。

PowerScaleのバックアップをクラウドに!SmartSync v2発進! 

※10 日経コンピュータで毎年実施されている顧客満足度調査のストレージ部門で1位を獲得しました。一部の界隈ではIT製品のベストジーニスト賞と呼ばれています。

デル・テクノロジーズ、「日経コンピュータ 顧客満足度調査 2025-2026」において、ストレージ部門で顧客満足度1位を獲得 | Dell Technologies

1 Rookie

 • 

33 メッセージ

2025年9月7日 14:49

ATE Dell AI Data Platform(4)【処理】

こんにちは。 先週今週でDell AI Data Platformをご紹介しております。 第4回ではデータの処理(PROCESS)について解説します。 Dell AI Data Platformにおけるデータ処理とは、AI・MLや生成AI、今話題のエージェントAIをはじめとする最新AIワークロードに向けたデータを準備するために必要な高度なデータ処理機能を提供します。 データ配置の段階で適切な場所に保存された生データは、次にデータ処理の工程を経てAI学習や推論に最適化されたデータセットへと変換されます。 ここで登場するのがDell Data Lakehouse(※1)です。 Dell Data Lakehouseは異なるタイプのデータエンジンとデータマネジメントサービス(メタデータ管理、データプロダクト、アクセスコントロールなど)で構成されており、安全かつ迅速に大規模データを準備することができます。


ご存じのとおりAIはデータなしでは成り立ちません。 また、良くGIGO(Garbage In, Garbage Out)と言われますが、データの品質が悪いとAIの精度も下がります。 Dell AI Data Platformのデータ処理は、バラバラになっている大量の未整備データを前処理しエンリッチ化することで、AIに適したデータセットや高品質なデータプロダクト(※2)を準備することが可能となり、組織間で円滑にデータを活用できる仕組みを支援します。

主にデータ処理を担うDell Data Lakehouseは、多様なワークロードに対応するためマルチエンジンを採用しております。 各エンジンはアプライアンスで提供(※3)されており、Starburst・Trinoを中核とした「Dell Data Analytics Engine」、Apache Sparkベースの「Dell Data Processing Engine」、今年の冬にリリース予定のElasticsearchベースの「Dell Unstructured Data Engine」(※4)があり、データ分析、BIおよびデータサイエンスワークロードを実行することができます。

Dell Data Analytics Engine
Dell Data Analytics Engineは、Starburst・Trinoをベースとした分散型クエリエンジンです。
大規模分散クエリエンジン以外にDell AI Data Platformにおけるデータマネジメントサービス部分を担っており、メタデータ管理やデータプロダクト、アクセスコントロールなどを提供します。
データ処理面では、構造化・半構造化・非構造化データに対し、フェデレーテッドクエリ(※5)によって仮想的なデータ統合やデータ探索、シンプルなETL処理が可能です。 最新のバージョンではSQLのLLM関数に対応し、感情分析や分類、翻訳、マスキングなどを用いたデータ分析やSQLワークフローに組み込むことによるデータのエンリッチメントが可能です。 クエリファブリックを実現するために提供している各種コネクタは、さまざまなデータソースだけでなく有名どころのBIツールに対応しているので、データコンシューマは使い慣れたツールを利用することができます。
また、Dell Data Analytics EngineならびにDell Data Processing Engineはオープンテーブル・ファイルフォーマットによりデータの相互利用が可能ですが、IcebergはACID特性やタイムトラベルなど利便性が高い反面、 スナップショットによる小さなファイルが大量に発生する可能性があります。 Dell Data Processing EngineにはIcebergテーブルのメンテナンス機能が備わっておりスナップショットの保持期限を設定して自動的最適化(大きなファイルにマージ)することが可能です。

Dell Data Processing Engine
Dell Data Processing Engineは、Apache Sparkをベースにした分散処理エンジンです。 ELT、ストリーミング、AI・MLモデルの学習、バッチ変換などの処理が可能です。 一般的なApache Sparkとの違いとしては、アプライアンスであることによる運用負荷の低減以外に、NVIDIA RAPIDSとの統合(※6)により、GPUを活用したSpark分散処理の高速化を実現しています。 また、アクセスコントロールやジョブ送信、ジョブ監視、リソースプールの設定などもDell Data Analytics Engineに統合されています。
Dell Data Analytics EngineとDell Data Processing Engineでは似た機能もありますが、使い分けとしてはデータ探索や簡易的なETL、BIツールによるダッシュボード・レポート作成はDell Data Analytics Engineを、高度なETL、 SQLやPython以外のScala・Java・R言語の利用、AI・MLデータパイプラインを構築する場合はDell Data Processing Engineとそれぞれの特長に応じて利用可能です。 なお、Dell Data Analytics EngineとDell Data Processing Engineはそれぞれワーカノードのスケールアウトが可能で、専用のUIから各エンジンのワーカノード数の変更ができます。 (※7)

Dell Unstructured Data Engine(仮称)
Dell Unstructured Data Engineは、Elasticsearchをベースにした分散型検索・分析エンジンです。 現時点ではリリースされていないので公開済みの情報からのご紹介となりますが、AIアプリケーションを強化するための主要機能である高度なベクトル検索、セマンティック検索、ハイブリッド キーワード検索機能を提供予定です。 現時点においてもDell Data Analytics EngineにはElasticsearchと接続可能なコネクタが存在しているため仮想的なデータ統合にも対応できます。 また、RAGフレームワークと統合できるPowerScaleのMetadataIQのメタデータのエクスポート先はElasticsearchであるため、Dell Unstructured Data Engineは既存のコンポーネントとの親和性が高いため、Dell AI Data Platformでテキストだけではなく画像・動画・音声などの非構造化データを活用するための3つめのエンジンとして大きくな存在になると考えます。

マルチモーダルAIや関連性のある複数のデータから分析を行う場合は、前回(第3回)でご紹介したように、物理的に1箇所へデータを集約することが理想的です。 しかし、システム制約や運用上の事情から全てのデータを集約できないケースも多く存在します。 さらに、各所からデータをコピーする方法では、転送に時間がかかる、データの鮮度が低下する、重複データが発生するなどの課題があります。 こうした物理的な集約が難しい場合には、各データの配置をそのまま維持しながら仮想的に統合するアプローチが効果的です。
Dell Data Analytics Engineは、フェデレーテッドクエリを活用することで分散したデータを仮想的に統合できます。 そのため、物理的な集約が難しい場合でも、組織内のあらゆるデータにリアルタイムでアクセスを可能にし、効率的にデータを準備することができます。
また、データ仮想化によるクエリの結果は、Dell Data Analytics Engineのワーカノード上のメモリに保持されますが、CTASやマテリアライズドビューを用いてレイクハウスのストレージに実体を保存することも可能です。

各エンジンの強みを活かしたデータ処理の例として、先ずPowerScaleならびにその他のファイルストレージから取得したファイルのメタデータ(※8)とファイルコンテンツを、Dell Unstructured Data Engineへ登録します。 次に、レイクハウスのブロンズ領域に保存されている生データに対して、Dell Data Processing EngineでETL処理を実施し、構造化済みデータをシルバー領域へ格納します。 その後、ファイルのメタデータとシルバー領域のデータをもとに、Dell Data Analytics Engineでデータプロダクト(データセットのビュー)を作成し、ゴールド領域に保存・公開します。 この一連のプロセスにより、組織内で活用可能なAIに適した高品質なデータを準備することが可能となります。
このようにDell AI Data Platformは、各領域の役割に応じて各エンジンがデータを段階的に処理することで、データの鮮度や品質を保ちながら、AIやBIなど多様な用途にも柔軟に対応する仕組みを提供します。

以上、Dell AI Data Platform 【処理】となります。 ご覧頂きましてありがとうございました。 (今回も「※」が多くなってしまいました🙇‍♂️)
次回、「Dell AI Data Platform【保護】」は9月10日の投稿を予定しております。

-----
※1 Dell Data Lakehouseの詳細については下記を参照ください。

‎IsilonianTech 第28回 Dell Data Lakehouse | DELL Technologies

‎DataPlatformTech 第30回 Dell Technologies Forum 2024 まとめ(Dell Data Lakehouseセッション) | DELL Technologies

データ分析・AI開発の“理想的なデータプラットフォーム”とは? デル・テクノロジーズが描くビジョンとソリューションに着目する | TECH+(テックプラス)

※2 データを活用する際に必ずしもデータコンシューマ(主に市民データサイエンティストなどデータの利用者)がデータに関する知識を持っているとは限りません。 データプロダクトは組織全体で活用したいデータをビジネスメタデータを含めて公開することでき、データの発見と検索可能性を高めることが可能です。 なお、データプロダクトはドメイン(データを持っている部門)が自ドメインのデータを製品に見立てて責任を持って公開するという前提で成り立ちます。

※3 ちなみに、アプライアンスは1UのPowerEdgeサーバで構成されておりDDAE-660という名前で呼んでいます。

※4 Dell Unstructured Data Engine(仮称)は下記プレスリリースを参照ください。 Dell Unstructured Data Engineは2025年下半期にリリースが予定されています。

デル・テクノロジーズ、「Dell AI Data Platform」の機能を強化 NVIDIAとElastic社との連携でデータを活用したエンタープライズAI推進を加速 | Dell Technologies

※5 データの場所を問わずフェデレーテッドクエリの実行が可能です。

‎DataPlatformTech 第32回 マルチクラウドにおけるデータプラットフォーム(Snowflake編) | DELL Technologies

※6 NVIDIA GTC 2025で発表したGPUが搭載可能なDell Data Processing Engineは今年冬リリース予定です。

デル・テクノロジーズとNVIDIAが、エンタープライズAIのイノベーションを促進 - PCからデータセンターまで - | Dell Technologies

※7 各エンジンの切り替えはDell Data Lakehouse System Softwareから変更できます。

‎DataPlatformTech 第33回 Dell Data Processing Engineリリース | DELL Technologies

※8 PowerScale以外の非構造化データをDell AI Data Platformに統合させる仕組みとしてサードパーティのDiskoverという製品があります。ヘテロな環境におけるデータセットマネジメント製品としては、以前Dell TechnologiesではDataIQと呼ばれるソフトウェアをご提供しておりましたが、現在は販売終了となっておりDiskoverが同様の機能を提供しています。

‎IsilonianTech 第12回 データファーストを支援するソフトウェア ~DataIQ~ | DELL Technologies

Dell Data Lakehouse and Diskover: Creating AI Datasets from Unstructured Data | Dell Technologies Info Hub

イベントは見つかりませんでした!

Top