Databricks の主要オープンソースプロジェクト
Apache Spark™
Apache Spark は、データエンジニアリング、データサイエンス、機械学習ワークロードを実行するための統合エンジンです。
Delta Lake
Delta Lake では、AWS S3、ADLS、GCS、HDFS などのストレージシステムの上に、レイクハウスアーキテクチャを構築できます。
MLflow
MLflow は、実験、再現性、デプロイメント、中央モデルレジストリなど、機械学習ライフサイクルを管理します。
Redash
Redash では、あらゆるユーザーが SQL を活用して、データソースサイズの規模を問わず、データを探索、クエリ、視覚化、共有することができます。
Delta Sharing
Delta Sharing は、セキュアなデータ共有のための新たなオープンプロトコルで、組織内外でのデータ共有を容易にします。
Databricks は、次のオープンソーステクノロジーもサポートしています
TensorFlow
Databricks は、クラスタ上の深層学習と汎用的なコンピューティングのためのライブラリ TensorFlow をサポートしています。
PyTorch™
PyTorch のクリエイターである Facebook との連携により PyTorch を統合しています。

Keras™
Keras は、TensorFlow上で実行される Python で記述された深層学習 APIです。機械学習のための Databricks ランタイムの一部として提供されます。
RStudio
R を使用したコラボレーション型データサイエンスのためのオープンソースのツール群を Databricks に統合できます。
scikit-learn
NumPy、SciPy、Matplotlib 上に構築された機械学習に広く使用されている Python パッケージを Databricks 上で利用できます。
XGBoost
Python、R、C++ などの言語に対応した分散型勾配ブースティングライブラリが提供されます。
Terraform
HashiCorp Terraform は、複数のクラウドプロバイダにわたってセキュアかつ予測可能なクラウドインフラを構築するための一般的なオープンソースツールです。Databricks Terraform プロバイダにより、ユーザーは柔軟で堅牢なツールを使用して、Databricks ワークスペース全体を他のインフラと一緒に管理できます。また、Terraform を利用することで、IaC (コードとしてのインフラ)のベストプラクティスを採用できます。