Databricks é uma plataforma unificada de dados e IA construída sobre Apache Spark, Delta Lake e o Lakehouse pattern. Roda sobre clouds públicas (AWS, Azure, GCP) e é gerenciada inteiramente pela Databricks.
Foi fundada pelos criadores do Apache Spark (UCB AMPLab, 2013) e é responsável pelo Lakehouse, pela Arquitetura Medalhão, pelo Delta Lake e pelo Unity Catalog.
Arquitetura de alto nível
┌─────────────────────────────────────────────────────────┐
│ DATABRICKS PLATFORM │
│ │
│ ┌─────────────┐ ┌──────────────┐ ┌────────────────┐ │
│ │ Notebooks │ │ Workflows │ │ Databricks SQL │ │
│ │ & IDE │ │ (Jobs) │ │ Warehouses │ │
│ └─────────────┘ └──────────────┘ └────────────────┘ │
│ │
│ ┌──────────────────────────────────────────────────┐ │
│ │ Lakeflow Declarative Pipelines (DLT) │ │
│ └──────────────────────────────────────────────────┘ │
│ │
│ ┌──────────────────────────────────────────────────┐ │
│ │ Apache Spark / Photon │ │
│ └──────────────────────────────────────────────────┘ │
│ │
│ ┌──────────────────────────────────────────────────┐ │
│ │ Unity Catalog - Governance & Metastore │ │
│ └──────────────────────────────────────────────────┘ │
│ │
│ ┌──────────────────────────────────────────────────┐ │
│ │ Delta Lake - Object Storage (S3/ADLS/GCS) │ │
│ └──────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────┘
Componentes principais
| Componente | O que faz |
|---|---|
| Clusters | Compute para notebooks, jobs e pipelines: All-Purpose, Job e SQL Warehouse |
| Delta Lake | Table format ACID sobre object storage, base de todas as tabelas |
| Unity Catalog | Governança centralizada: metastore, ACL, linhagem, auditing |
| Volumes | Armazenamento de arquivos não tabulares (CSV, JSON, imagens) gerenciado pelo Unity Catalog |
| Lakeflow Declarative Pipelines | Pipelines declarativos batch/streaming (antigo DLT) com qualidade de dados embutida |
| Jobs & Workflows | Orquestração nativa de tasks (notebooks, Python, SQL, DLT, dbt) |
| Asset Bundles (DABs) | Infraestrutura como código para Databricks: CI/CD e deploy de projetos |
| Databricks SQL | SQL warehouse serverless para queries analíticas e dashboards |
| MLflow | Rastreamento de experimentos, registro de modelos, serving |
| Photon | Engine de query nativa em C++, substituindo Spark para queries SQL puras, muito mais rápido |
Workspace
O Workspace é o ambiente de trabalho de um time no Databricks:
- Contém notebooks, repositórios Git, clusters, jobs e pipelines
- Um account pode ter múltiplos workspaces (ex: dev, staging, prod)
- Acessível via UI, CLI (
databricks-cli) ou Terraform
Databricks no ecossistema
Databricks não substitui ferramentas como dbt ou Airflow, mas complementa:
- dbt + Databricks: dbt transforma dados dentro do Databricks SQL Warehouse ou Spark
- Airflow → Databricks:
DatabricksRunNowOperatordispara jobs do Databricks via Airflow - Delta Sharing: compartilhamento de dados Delta entre organizações sem mover os dados
Camadas de acesso
UI (workspace.azuredatabricks.net)
CLI (databricks cli v2)
REST API (api/2.1/)
SDKs: Python (databricks-sdk), Terraform (databricks provider)
Asset Bundles (DABs): IaC para projetos Databricks
Ver também: databricks-clusters | databricks-delta-lake | databricks-unity-catalog | databricks-volumes | databricks-lakeflow-pipelines | databricks-jobs | databricks-asset-bundles | data-lake-lakehouse | arquitetura-medalhao