
データレイクとデータウェアハウスとは?それぞれの強み・弱みと 次世代のデータ管理システム「データレイクハウス」を解説

「ソフトウェアが世界を食べている」という見方が、現代のハイテク産業を形成してきました。今日、ソフトウェアは、私たちが身につける時計から、家、車、工場、農場まで、私たちの生活のいたるところにあります。Databricksでは、まもなくAIがすべてのソフトウェアを食べるようになると考えています。つまり、過去数十年の間に構築されたソフトウェアがインテリジェントになり、データを活用することで、より賢くなるということです。
その影響は膨大かつ多様で、カスタマーサポートから医療、教育まであらゆる分野に影響を及ぼします。このブログでは、AIがデータ・プラットフォームをどのように変えるかについて、私たちの見解を述べます。データ・プラットフォームに対するAIのインパクトは漸進的なものではなく、データへのアクセスを大幅に民主化し、手作業による管理を自動化し、カスタムAIアプリケーションのターンキー作成を可能にするという根本的なものであると主張します。
これらすべてを可能にするのが、組織のデータを深く理解する統合プラットフォームの新潮流です。 私たちはこの新世代のシステムをデータ・インテリジェンス・プラットフォームと呼んでいます。
データウェアハウスは、企業の構造化されたビジネスデータを整理するソリューションとして1980年代に登場しました。 しかし、2010年までには、組織はAIなどのより多様なユースケースをサポートするために、大量の非構造化データを蓄積し始めました。 これに対処するため、あらゆる種類のデータに対応するオープンでスケーラブルなシステムとしてデータレイクが導入された。 2015年までには、ほとんどの組織がデータウェアハウスとデータレイクの両方を運用するのが一般的になりました。 しかし、このデュアルプラットフォームアプローチは、ガバナンス、セキュリティ、信頼性、管理の面で大きな課題を抱えています。
5年前、データブリックはレイクハウスのコンセプトを開拓し、両者の長所を組み合わせ、一体化させることにしました。 レイクハウスは、すべてのデータをオープンな形式で保存・管理し、BIからAIまで幅広いワークロードをネイティブにサポートします。 レイクハウスによって、(1)組織内のすべてのデータソースをまとめて照会し、(2)データを使用するすべてのワークロード(BI、AIなど)を統一された方法で管理する統一システムを提供しています。 レイクハウスはデータプラットフォームという独自のカテゴリーとなり、現在では企業に広く採用され、ほとんどのベンダーのスタックに組み込まれています。
一方でこれらの進歩とは裏腹に、現在市場に出回っているすべてのデータ・プラットフォームは、まだいくつかの大きな課題に直面しています:
こうした問題の多くは、データ・プラットフォームが組織内のデータとその利用方法を根本的に理解していないために生じています。 幸いなことに、ジェネレーティブAIは、まさにこうした課題に対処するための強力な新ツールを提示してくれています。
データ・インテリジェンス・プラットフォームは、AIモデルを採用して企業データのセマンティクスを深く理解することで、データ管理に革命をもたらします。 レイクハウスの基盤(企業全体のすべてのデータを照会・管理する統一システム)をベースに、データ(コンテンツとメタデータ)とその使用方法(クエリー、レポート、リネージなど)の両方を自動的に分析し、新しい機能を追加します。
このようにデータを深く理解す ることで、データ・インテリジェンス・プラットフォームは可能になるのです:
これはここ数年でBIツールが追加した自然言語Q&A機能とどう違うのかと思う人もいるかもしれません。 BIツールは、データワークロード全体の(重要ではあるが)狭い一断面を表しているに過ぎず、その結果、発生しているワークロードの大部分や、BIレイヤーに到達する前のデータの系譜や用途を可視化することはできません。 これらのワークロードを可視化しなければ、必要な深い意味的理解を深めることはできません。 その結果、こうした自然言語によるQ&A機能は、まだ広く採用されておりません。 データインテリジェンスプラットフォームを使えば、BIツールは基礎となるAIモデルを活用して、より豊かな機能を実現できるようになります。 したがって、このコア機能はデータ・プラットフォームに存在すると考えています。
Databricksでは、データレイクハウスの上にデータインテリジェンスプラットフォームを構築しており、個々の機能を追加するにつれて、データプラットフォームにおけるAIの可能性にますます期待が高まっています。 私たちは、(1)データとAIにまたがる統一されたガバナンスレイヤーと、(2)ETL、SQL、機械学習、BIにまたがる単一の統一されたクエリーエンジンを備えた業界唯一のデー タプラットフォームとして、Databricks Lakehouseの既存のユニークな機能を基盤としています。 さらに、私たちはMosaicMLの買収を活用し、DatabricksIQと呼ぶデータ・インテリジェンス層でAIモデルを生成しています。
DatabricksIQはすでに私たちの現在のスタックの多くの層に浸透しています:
最後に、しかしおそらくより重要なこととして、データ・インテリジェンス・プラットフォームはエンタープライズAIアプリケーションの開発を大幅に簡素化すると信じていま す。 我々はDatabricksIQを我々のAIプラットフォームであるMosaic AIと直接統合し、企業がデータを理解するAIアプリケーションを簡単に作成できるようにしています。 Mosaic AIは現在、企業データをAIシステムに直接統合するための複数の機能を提供しています:
私たちは、AIがすべてのソフトウェアに変革をもたらすと考えており、データ・プラットフォームはAIによるイノベーションが最も適している分野のひとつです。歴史的に、データ・プラットフォームはエンドユーザーにとってアクセスしにくく、データ・チームにとっては管理・統治しにくいものでした。 データ・インテリジェンス・プラットフォームは、この2つの課題に直接取り組むことで、この状況を一変させることができます。 さらに、データとその利用法についての深い理解は 、そのデータを操作する企業向けAIアプリケーションの基礎となります。
AIがソフトウェアの世界を再構築する中、あらゆる業界のリーダーは、データとAIを深く活用し、組織を強化するリーダーになると私たちは信じています。DIプラットフォームは、こうした企業にとって、品質、スピード、敏捷性を備えた次世代のデータおよびAIアプリケーションの開発を可能にする礎石となります。