新しい会話を開始

未解決

1 Rookie

 • 

34 メッセージ

108

2024年10月24日 12:17

DataPlatformTech 第30回 Dell Technologies Forum 2024 まとめ(Dell Data Lakehouseセッション)

みなさまいかがお過ごしでしょうか?
なんと、本ブログも今回で通算30回目の節目を迎えました。いつもご覧頂きまして本当にありがとうございます。🙇‍♂️

10月3日に開催されたDell Technologies Forum 2024において「AIに向けたデータの準備(AI02-P)」というタイトルで登壇の機会を頂きました。本ブログでは「AIに向けたデータの準備(AI02-P)」のセッションの内容を要約してお伝えします。(※ 1)
私のセッションは、大雑把に言うとDell Data Lakehouseをご紹介するセッションとなっておりました。冒頭の自己紹介(※ 2)から始まり、今年の夏にカプセルトイ「手のひらネットワーク機器」を集めて作ったDell Data Lakehouseアプライアンスのミニチュアをご覧頂きました。Dell Data Lakehouseは分析エンジンとしてStarburst Enterpriseというソフトウェアが組み込まれておりますが、Starburstをミニチュアで表現するのは難しかったので、Starburstという名前のお菓子(ソフトキャンディ)を右下に配置しました。(※ 3)

次に、デル・テクノロジーズの会長兼CEO(最高経営責任者)のマイケル・デルの言葉を引用させて頂きました。「現在AIは最重要なテクノロジであり、AIを動かすためには正確なデータが必要」、マイケル・デルは6年ほど前にAIをロケットシップ(宇宙船)と喩えて、AI(宇宙船)にはデータという燃料が必要であるとメッセージアウトしましたが、言葉のとおりデータなくしてAIは成立しません。今後ビジネスをAIで加速させるためにはデータ戦略がますます重要になってきますが、社内に存在しているデータをAIの学習データやRAGデータとして利用したいと考えた時に、多くの企業や団体/組織では使いたくでも迅速に利用出来ない様々な課題が存在していると考えられます。
データサイエンティストやデータアナリストなどのデータ利用者の立場からは、「データが膨大なため欲しいデータがどこにあるかわからない」、「必要なデータが見つからない」、「複数のデータソースが乱立しているのでアクセスが大変」といった基本的な問題や「データを複数コピーしていて、どれが最新かわからない、データを信頼できない」、「ETLに時間がかかりタイムラグがあるためデータの鮮度が落ちている」、「オンプレミス、クラウドサービス、オープンデータなど分散されているため一元的に扱うのが大変」などの課題が挙げられます。
また、データエンジニアやインフラ管理者などの運用管理者の課題としてはデータプラットフォームの管理面を中心に「ソフトウェア(オープンソース)のバージョン管理や脆弱性の対応が煩雑」、データプラットフォームの急成長にあたり「データの増加や性能向上の際に拡張するのが難しい」、各データソースがバラバラなため「個々のデータソースに対する権限管理が煩雑」、「GDPRやCCPAなどコンプライアンス遵守が困難」、「データエンジニアのリソースが足りない」といった課題やセキュリティリスク「ランサムウェア、ノーウェアランサム」、「社員の情報の持ち出し」などの脅威が挙げられることをお伝えしました。

これらの課題に対応するためDell Technologiesでは数年前から(昨年からはStarburst社と提携して)、オープンでモダンなデータレイクハウスというビジョンを描いてソリューションを強化してきました。
・データソースのサイロ化をなくすためにパブリッククラウドでもオンプレミスでもあるデータの仮想的な統合。データを物理的に1箇所に集めるのではなく、データレイクハウスが中心となってコネクタを通じて全てのデータにアクセスできる環境の提供
・各種データソースに対して直接クエリを実行する環境の構築。これによりデータのコピーを最小限にしてETLを極力なくすデータプラットフォームの実現
・MPP (大規模並列処理)、スケールアウト型かつコンピュートとストレージを分離したアーキテクチャの採用によって必要な時に必要な箇所の拡張を実現
・ベンダロックインを排除するために、オープンな技術(オープンテーブルフォーマット、オープンファイルフォーマット、オープンソースの技術など)の採用
・アクセスコントロールの機能やデータマスキングなど、セキュリティおよびガバナンスに遵守するための各種機能
などが挙げられます。Starburst社との提携の成果は当初リファレンスアーキテクチャの形でご提供してまいりましたが、今年3月にDell Data Lakehouseという名称のデータプラットフォームをリリースしました。


Dell Data Lakehouseは、コンピュートとストレージから成り立っており、コンピュート部分はStarburst Enterpriseを搭載しDell Data Analytics Engineとしてアプライアンス化したもの、ストレージ部分は従来からご提供しているECSやPowerScaleと言ったオブジェクトストレージが担う形となります。
アプライアンス化された事による一番のメリットは、ハードウェアとソフトウェアの運用負荷を抑えてシステム管理者の負荷の低減が可能となっています。
Dell Data Lakehouseはパブリッククラウドやオンプレミス問わず各種データソースに接続できるので、Dell Data Lakehouseをポータル(中心)としてシングルポイントオブアクセスを提供します。このシングルポイントオブアクセスのメリットはデータ利用者、運用管理者の双方にメリットをもたらしますが、データサイエンティスト、データアナリストなどデータ利用者はDell Data Lakehouseにアクセスすれば利用可能なデータを瞬時に把握し必要なデータを取得することができます。もうデータ利用者はどこにアクセスすれば良いか迷うことがありません。またアクセス先がDell Data Lakehouseに変わってもデータ利用者達が使い慣れているツール(R/RStudo、JupyterLab/Notebook、PowerBI、Tableauなど)を使うことが可能ですので別のツールを覚える必要はありません。
運用管理者にとっても、個々のデータソースを変更せずセキュリティ(ユーザ認証やアクセスコントロール)を一元的に管理することができますので、データマネジメントをシンプルにすると同時に企業や団体/組織のガバナンスやセキュリティを強化することができます。
主な特長(下記スライドの左の4点)についてはデモを交えてご紹介しました。(※ 4)


Dell Data Lakehouseは大きくコンピュート、管理プレーン、ストレージにわかれています。コンピュートとストレージは分離されているため個々にスケールアウトや縮小することが可能です。データ分析基盤の多くは一体型の製品が多いですが、Dell Technologiesでは以前からHadoopのデータプラットフォームを構築する際にもコンピュートとストレージの分離を提唱してきました。

また、運用コスト低減のためにアプライアンス専用の管理画面(Dell Data Lakehouse System Software)を用意していますので、管理者はDell Data Lakehouse System Softwareからアプライアンスの設定や状態の確認を行うことができます。

<Dell Data Lakehouse System Software画面:カタログやストレージの登録、システム状態などが確認できます>

Dell Data Lakehouseが中心となり、複数のデータソースをハブのようなイメージで繋ぐことによって、論理的なシングルポイントオブアクセス(データを1箇所に集めるのではなく仮想的に集約)を実現し、信頼できる唯一の情報源(SSOT)をデータ利用者に提供すること出来るようになります。また、Oracle、Snowflake、Salesforce、SAPなどデータソースや、BIツール、MLツールなどのクライアントツールを接続するコネクタは50種類以上サポートされていますので、構造化、半構造化、非構造化問わず社内外のデータソースに対してデータをコピーすることなくフェデレーション(クエリ)することが可能となります。


データサイエンティストやデータアナリストなどのデータ利用者は従来からの使い慣れたツール(R/RStudo、JupyterLab/Notebook、PowerBI、Tableauなど)を使用してデータの利活用を行うことができます。(下記スクリーンショットのようにクエリエディタからクエリを実行することもできます。)

<Dell Data Analytics Engine画面:Cluster explorerには利用可能なデータソースがリストされています>


続いて、多種多様なデータソースを接続して、社内の全データにアクセス可能な環境が実現できると利便性は向上しますが、今度はセキュリティの問題が出てくることをお伝えしました。
「個人情報(PII)の特定の列は誰でも参照出来ては困る」、「ヨーロッパやカリフォルニアで事業するからGDPRやCCPAを考慮する必要がある」などの課題含めて「最小権限の原則」のもと必要以上にデータを見せない権限設定が重要になります。
Dell Data Lakehouseでは、セキュリティ機能が統合されていますのでコネクタで各データソースを繋いだ後は一箇所で一元的に管理が出来るようになります。
具体的には既存の認証基盤との連携やアクセスコントロール、列や行レベルでのフィルタリングが出来るようになります。


例えば、アクセスコントロールを例にすると従来のようなデータプラットフォームの仕組みではアプリケーションからデータソースに対して1対1で接続するため、データソースやアプリケーションの数だけ設定する必要があり運用が複雑になっていました。Dell Data Lakehouseでは接続先を1箇所に集約できるので、データ利用者のアクセスポイント(出入り口)となるDell Data Lakehouseに対してセキュリティ設定ができ運用工数を抑えることが出来ます。

 <Roles and privileges:作成したoperatorロールに対して列マスクを設定>

当日のデモでは「operator」というロールを作成した後、「operator」ロールに"Icebergに存在するastronautsテーブルのみを参照許可する権限"に加えて"「phone」列をマスク(末尾4文字のみ表示)"を追加し、「yasui」というユーザを追加しました。
「yasui」でログインすると、該当するテーブル(iceberg, world, astronauts)のみ表示することができ、SELECT文を実行すると「phone」列がマスクされている事が確認できます。(※ 5)

 <operator権限(ユーザ:yasui)によるクエリの実行>

4点目の特長として、分析とAIの民主化(データの民主化)についてご紹介しました。企業や団体/組織においてデータメッシュアーキテクチャ(連邦型で自律的なデータマネジメント)が必ずしも最適解という事では無いですが、Dell Data Lakehouseはデータメッシュアーキテクチャと親和性が高いソリューションになっています。
ドメイン(事業部門)は、所有しているデータをプロダクトのように扱い責任を持ってキュレーションした形で公開することによってデータの利活用を促進します。ドメインが所有しているデータは所有者が一番知見がありデータの性質を理解しているため安全に公開されるのでデータ利用者も信頼できるデータに迅速にアクセスが出来るようになりビジネスの俊敏性が向上します。


下記スクリーンショットのように、データ利用者がDell Data Lakehouseにアクセスすると利用可能なデータプロダクトを確認することができます。タイル形式もしくはリスト形式で表示することができ、ソートやタグやドメイン、キーワードによるフィルタで必要なデータを迅速に見つけることが可能です。また、お気に入りのデータプロダクトをブックマークする機能やレーティング(☆をクリックすることによる5段階評価)、利用状況やディスカッション(コメントをやり取りするフィールド)を実施する機能が実装されています。


デモでは実際にデータプロダクトを作成する流れを工場のIoT機器(IoT機器のデータが複数のデータソースに格納されている事を想定してicebergとpostgreSQLに格納されているデータのフェデレーション)をイメージした形でご紹介しました。(※ 5)
作成したデータプロダクトを多くの人に利用してもらえるよう(発見可能性)に、データプロダクトの内容を詳細に記述し具体的な使用例などを含めます。また、データプロダクトのオーナや必要に応じてタグ、関連リンクを付加していきます。


セッションの最後にDell Technologiesでご提供可能なコンサルティングやトレーニングをご紹介しました。AIだけではなくアナリティクスにおいても同じことが言えますが、良い製品やツールが存在しても利用されなければ無駄な投資になってしまいます。特にデータの民主化において自律的に価値のあるデータプロダクトが作成されるためには組織の成熟が重要です。Dell Technologiesでは製品の提供や構築だけではなく、技術者の育成や運用支援含めたデータの活用を推進し組織に定着させる仕組みの支援も行っており、これまでに多くのお客様で実績がございます。

以上、Dell Technologies Forum 2024における「AIに向けたデータの準備(AI02-P)」のまとめ(ひとり振り返り&反省会)でした。(※ 6)

※ 1…セッションの要約に加えて時間の関係や私の力不足で当日お伝え出来なかった部分も少し含まれます。
※ 2…Starburstや冒頭の宇宙船(AI)と燃料(データ)にちなんで、自己紹介の写真はスターウォーズ、列マスキングのデータはkaggleにある宇宙飛行士リストという風に宇宙関連で揃えてみました。
※ 3…リアルに作り込んだためか「本物だと思った」、「実際にミニチュアが見たい」という意見を頂きました。ありがとうございます。
※ 4…本ブログではデモの一部(スクリーンショット)のご紹介となります。実際の動作をご覧になりたい場合は弊社営業までお問い合わせください。
※ 5…デモは予め録画しておいたビデオを再生したためWindows(デスクトップ)の日時が10月3日ではありません。また、登壇時はステージ中央(PCから離れて)に立ってデモビデオを流したため一時停止が出来ず、私の説明がビデオの再生速度に付いていけない所が多々ありました。申し訳ございません。。🙇‍♂️
※ 6…当日現地にて参加くださった皆様、後日オンラインにて視聴いただいた皆様、本ブログをご覧頂いた皆様ありがとうございました。

<同僚が写真を撮ってくれてました。。ありがとうございます。🌞>

さいごに

ブログタイトルが時代にそぐわなくなり、今回からDataPlatformTechと改名しました。
引き続き「実際に試した結果をお届けする」をモットーにデータプラットフォーム関連の情報をお伝えしてまいります。

安井 謙治

Dell TechnologiesUnstructured Data Solutions

インフラストラクチャー ソリューションズ SE統括本部

UDS SE本部

レスポンスがありません。
イベントは見つかりませんでした!

Top