Databricks

Databricks é uma plataforma unificada de dados e IA construída sobre Apache Spark, Delta Lake e o Lakehouse pattern. Roda sobre clouds públicas (AWS, Azure, GCP) e é gerenciada inteiramente pela Databricks.

Foi fundada pelos criadores do Apache Spark (UCB AMPLab, 2013) e é responsável pelo Lakehouse, pela Arquitetura Medalhão, pelo Delta Lake e pelo Unity Catalog.

Arquitetura de alto nível

┌─────────────────────────────────────────────────────────┐
│                    DATABRICKS PLATFORM                   │
│                                                          │
│  ┌─────────────┐  ┌──────────────┐  ┌────────────────┐  │
│  │  Notebooks  │  │  Workflows   │  │ Databricks SQL │  │
│  │  & IDE      │  │  (Jobs)      │  │  Warehouses    │  │
│  └─────────────┘  └──────────────┘  └────────────────┘  │
│                                                          │
│  ┌──────────────────────────────────────────────────┐    │
│  │         Lakeflow Declarative Pipelines (DLT)     │    │
│  └──────────────────────────────────────────────────┘    │
│                                                          │
│  ┌──────────────────────────────────────────────────┐    │
│  │              Apache Spark / Photon               │    │
│  └──────────────────────────────────────────────────┘    │
│                                                          │
│  ┌──────────────────────────────────────────────────┐    │
│  │     Unity Catalog - Governance & Metastore        │    │
│  └──────────────────────────────────────────────────┘    │
│                                                          │
│  ┌──────────────────────────────────────────────────┐    │
│  │   Delta Lake  -  Object Storage (S3/ADLS/GCS)   │    │
│  └──────────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────┘

Componentes principais

Componente	O que faz
Clusters	Compute para notebooks, jobs e pipelines: All-Purpose, Job e SQL Warehouse
Delta Lake	Table format ACID sobre object storage, base de todas as tabelas
Unity Catalog	Governança centralizada: metastore, ACL, linhagem, auditing
Volumes	Armazenamento de arquivos não tabulares (CSV, JSON, imagens) gerenciado pelo Unity Catalog
Lakeflow Declarative Pipelines	Pipelines declarativos batch/streaming (antigo DLT) com qualidade de dados embutida
Jobs & Workflows	Orquestração nativa de tasks (notebooks, Python, SQL, DLT, dbt)
Asset Bundles (DABs)	Infraestrutura como código para Databricks: CI/CD e deploy de projetos
Databricks SQL	SQL warehouse serverless para queries analíticas e dashboards
MLflow	Rastreamento de experimentos, registro de modelos, serving
Photon	Engine de query nativa em C++, substituindo Spark para queries SQL puras, muito mais rápido

Workspace

O Workspace é o ambiente de trabalho de um time no Databricks:

Contém notebooks, repositórios Git, clusters, jobs e pipelines
Um account pode ter múltiplos workspaces (ex: dev, staging, prod)
Acessível via UI, CLI (databricks-cli) ou Terraform

Databricks no ecossistema

Databricks não substitui ferramentas como dbt ou Airflow, mas complementa:

dbt + Databricks: dbt transforma dados dentro do Databricks SQL Warehouse ou Spark
Airflow → Databricks: DatabricksRunNowOperator dispara jobs do Databricks via Airflow
Delta Sharing: compartilhamento de dados Delta entre organizações sem mover os dados

Camadas de acesso

UI (workspace.azuredatabricks.net)
CLI (databricks cli v2)
REST API (api/2.1/)
SDKs: Python (databricks-sdk), Terraform (databricks provider)
Asset Bundles (DABs): IaC para projetos Databricks

Second Brain

Explorer

Databricks

Table of Contents

Arquitetura de alto nível

Componentes principais

Workspace

Databricks no ecossistema

Camadas de acesso

Graph View

Backlinks