Governança de Dados: Ferramentas

O mercado de ferramentas de governança de dados cresceu rapidamente e cobre quatro grandes categorias: catálogo, linhagem, qualidade e controle de acesso. A maioria das ferramentas modernas combina mais de uma dessas funções.

Catálogo de dados

Open source

DataHub (LinkedIn): catálogo de metadados com suporte a linhagem automática, APIs REST/GraphQL e ampla lista de integrações. O mais adotado no ecossistema aberto.
Apache Atlas: catálogo e governança com foco em ecossistemas Hadoop/Hive. Mais pesado, menos adotado em ambientes cloud-native modernos.
OpenMetadata: moderno, API-first, com suporte a qualidade de dados integrada e linhagem.
Amundsen (Lyft): focado em descoberta de dados. Mais simples que o DataHub, mas com funcionalidades mais limitadas.

Comercial

Collibra: plataforma completa com glossário de negócio, workflows de aprovação, linhagem e qualidade. Líder de mercado em empresas reguladas.
Alation: foco em usabilidade e adoção pelo usuário de negócio. Bom para criar cultura de dados.
Atlan: moderna, API-first, integra bem com stack moderna (dbt, Airflow, Snowflake).
Informatica IDMC: suite completa mas complexa, legacy em muitas empresas.

Cloud-native

Microsoft Purview: catálogo e governança nativo do Azure. Integra com Azure Data Factory, Synapse e Power BI.
Google Dataplex: plataforma de governança do GCP com catálogo, qualidade e controle de acesso integrados. Ver gcp-dataplex.
AWS Glue Data Catalog: catálogo básico da AWS, integrado ao Glue ETL e Athena.

Linhagem de dados

A linhagem pode ser capturada de duas formas:

Linhagem estática (parse-time): análise de código SQL/Python para extrair dependências antes da execução. O dbt faz isso nativamente, gerando um DAG de modelos com linhagem completa.

Linhagem em tempo de execução (runtime): instrumentação do pipeline para capturar o fluxo real durante a execução. Ferramentas como OpenLineage e Marquez seguem esse modelo.

Ferramenta	Tipo	Integração
dbt	Estática (SQL)	DataHub, Collibra, Atlan
OpenLineage	Runtime	Airflow, Spark, Flink
Marquez	Runtime (backend)	OpenLineage, Jupyter
DataHub	Ambos	Airflow, Spark, dbt, Kafka

Qualidade de dados

Great Expectations: define expectativas como testes Python. Integra com pipelines e gera docs de qualidade automáticos.
Soda: YAML-based, mais acessível para não-engenheiros. Tem plataforma SaaS (Soda Cloud) para monitoramento.
dbt tests: testes integrados aos modelos dbt, executados no próprio DW. Cobrem unicidade, nulos, relações e valores aceitos.
Monte Carlo: plataforma de observabilidade de dados com detecção de anomalias por ML (table freshness, volume, schema changes).

Ver python-qualidade-dados para uso com Python.

Controle de acesso e segurança

Databricks Unity Catalog: catálogo e controle de acesso centralizado para todo o workspace Databricks (tabelas, volumes, modelos de ML). Ver databricks-unity-catalog.
Apache Ranger: controle de acesso fine-grained para ecossistemas Hadoop.
Privacera: ABAC (attribute-based access control) para múltiplas plataformas, incluindo cloud.

Como as ferramentas se encaixam

flowchart TB
    subgraph Ingestão e Transformação
        A[Airflow] --> S[Spark]
        D[dbt] --> DW[Data Warehouse]
    end
    subgraph Governança
        C[Catálogo: DataHub / Purview]
        Q[Qualidade: Great Expectations / Soda]
        L[Linhagem: OpenLineage / dbt]
    end
    S & D & A --> L
    DW --> Q
    L & Q --> C
    C --> U[Usuário descobre e confia nos dados]

Como escolher

Contexto	Recomendação
Stack Databricks	Unity Catalog + DataHub ou Atlan
Stack GCP	Dataplex (catálogo + qualidade integrados)
Stack Azure	Microsoft Purview
dbt-centric	Atlan ou DataHub com integração nativa dbt
Open source puro	DataHub + OpenLineage + Great Expectations
Empresa regulada com orçamento	Collibra ou Informatica IDMC

Second Brain

Explorer