Databricks é uma plataforma unificada de dados e IA construída sobre Apache Spark, Delta Lake e o Lakehouse pattern. Roda sobre clouds públicas (AWS, Azure, GCP) e é gerenciada inteiramente pela Databricks.

Foi fundada pelos criadores do Apache Spark (UCB AMPLab, 2013) e é responsável pelo Lakehouse, pela Arquitetura Medalhão, pelo Delta Lake e pelo Unity Catalog.

Arquitetura de alto nível

┌─────────────────────────────────────────────────────────┐
│                    DATABRICKS PLATFORM                   │
│                                                          │
│  ┌─────────────┐  ┌──────────────┐  ┌────────────────┐  │
│  │  Notebooks  │  │  Workflows   │  │ Databricks SQL │  │
│  │  & IDE      │  │  (Jobs)      │  │  Warehouses    │  │
│  └─────────────┘  └──────────────┘  └────────────────┘  │
│                                                          │
│  ┌──────────────────────────────────────────────────┐    │
│  │         Lakeflow Declarative Pipelines (DLT)     │    │
│  └──────────────────────────────────────────────────┘    │
│                                                          │
│  ┌──────────────────────────────────────────────────┐    │
│  │              Apache Spark / Photon               │    │
│  └──────────────────────────────────────────────────┘    │
│                                                          │
│  ┌──────────────────────────────────────────────────┐    │
│  │     Unity Catalog - Governance & Metastore        │    │
│  └──────────────────────────────────────────────────┘    │
│                                                          │
│  ┌──────────────────────────────────────────────────┐    │
│  │   Delta Lake  -  Object Storage (S3/ADLS/GCS)   │    │
│  └──────────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────┘

Componentes principais

ComponenteO que faz
ClustersCompute para notebooks, jobs e pipelines: All-Purpose, Job e SQL Warehouse
Delta LakeTable format ACID sobre object storage, base de todas as tabelas
Unity CatalogGovernança centralizada: metastore, ACL, linhagem, auditing
VolumesArmazenamento de arquivos não tabulares (CSV, JSON, imagens) gerenciado pelo Unity Catalog
Lakeflow Declarative PipelinesPipelines declarativos batch/streaming (antigo DLT) com qualidade de dados embutida
Jobs & WorkflowsOrquestração nativa de tasks (notebooks, Python, SQL, DLT, dbt)
Asset Bundles (DABs)Infraestrutura como código para Databricks: CI/CD e deploy de projetos
Databricks SQLSQL warehouse serverless para queries analíticas e dashboards
MLflowRastreamento de experimentos, registro de modelos, serving
PhotonEngine de query nativa em C++, substituindo Spark para queries SQL puras, muito mais rápido

Workspace

O Workspace é o ambiente de trabalho de um time no Databricks:

  • Contém notebooks, repositórios Git, clusters, jobs e pipelines
  • Um account pode ter múltiplos workspaces (ex: dev, staging, prod)
  • Acessível via UI, CLI (databricks-cli) ou Terraform

Databricks no ecossistema

Databricks não substitui ferramentas como dbt ou Airflow, mas complementa:

  • dbt + Databricks: dbt transforma dados dentro do Databricks SQL Warehouse ou Spark
  • Airflow → Databricks: DatabricksRunNowOperator dispara jobs do Databricks via Airflow
  • Delta Sharing: compartilhamento de dados Delta entre organizações sem mover os dados

Camadas de acesso

UI (workspace.azuredatabricks.net)
CLI (databricks cli v2)
REST API (api/2.1/)
SDKs: Python (databricks-sdk), Terraform (databricks provider)
Asset Bundles (DABs): IaC para projetos Databricks

Ver também: databricks-clusters | databricks-delta-lake | databricks-unity-catalog | databricks-volumes | databricks-lakeflow-pipelines | databricks-jobs | databricks-asset-bundles | data-lake-lakehouse | arquitetura-medalhao