O mercado de ferramentas de governança de dados cresceu rapidamente e cobre quatro grandes categorias: catálogo, linhagem, qualidade e controle de acesso. A maioria das ferramentas modernas combina mais de uma dessas funções.

Catálogo de dados

Open source

  • DataHub (LinkedIn): catálogo de metadados com suporte a linhagem automática, APIs REST/GraphQL e ampla lista de integrações. O mais adotado no ecossistema aberto.
  • Apache Atlas: catálogo e governança com foco em ecossistemas Hadoop/Hive. Mais pesado, menos adotado em ambientes cloud-native modernos.
  • OpenMetadata: moderno, API-first, com suporte a qualidade de dados integrada e linhagem.
  • Amundsen (Lyft): focado em descoberta de dados. Mais simples que o DataHub, mas com funcionalidades mais limitadas.

Comercial

  • Collibra: plataforma completa com glossário de negócio, workflows de aprovação, linhagem e qualidade. Líder de mercado em empresas reguladas.
  • Alation: foco em usabilidade e adoção pelo usuário de negócio. Bom para criar cultura de dados.
  • Atlan: moderna, API-first, integra bem com stack moderna (dbt, Airflow, Snowflake).
  • Informatica IDMC: suite completa mas complexa, legacy em muitas empresas.

Cloud-native

  • Microsoft Purview: catálogo e governança nativo do Azure. Integra com Azure Data Factory, Synapse e Power BI.
  • Google Dataplex: plataforma de governança do GCP com catálogo, qualidade e controle de acesso integrados. Ver gcp-dataplex.
  • AWS Glue Data Catalog: catálogo básico da AWS, integrado ao Glue ETL e Athena.

Linhagem de dados

A linhagem pode ser capturada de duas formas:

Linhagem estática (parse-time): análise de código SQL/Python para extrair dependências antes da execução. O dbt faz isso nativamente, gerando um DAG de modelos com linhagem completa.

Linhagem em tempo de execução (runtime): instrumentação do pipeline para capturar o fluxo real durante a execução. Ferramentas como OpenLineage e Marquez seguem esse modelo.

FerramentaTipoIntegração
dbtEstática (SQL)DataHub, Collibra, Atlan
OpenLineageRuntimeAirflow, Spark, Flink
MarquezRuntime (backend)OpenLineage, Jupyter
DataHubAmbosAirflow, Spark, dbt, Kafka

Qualidade de dados

  • Great Expectations: define expectativas como testes Python. Integra com pipelines e gera docs de qualidade automáticos.
  • Soda: YAML-based, mais acessível para não-engenheiros. Tem plataforma SaaS (Soda Cloud) para monitoramento.
  • dbt tests: testes integrados aos modelos dbt, executados no próprio DW. Cobrem unicidade, nulos, relações e valores aceitos.
  • Monte Carlo: plataforma de observabilidade de dados com detecção de anomalias por ML (table freshness, volume, schema changes).

Ver python-qualidade-dados para uso com Python.

Controle de acesso e segurança

  • Databricks Unity Catalog: catálogo e controle de acesso centralizado para todo o workspace Databricks (tabelas, volumes, modelos de ML). Ver databricks-unity-catalog.
  • Apache Ranger: controle de acesso fine-grained para ecossistemas Hadoop.
  • Privacera: ABAC (attribute-based access control) para múltiplas plataformas, incluindo cloud.

Como as ferramentas se encaixam

flowchart TB
    subgraph Ingestão e Transformação
        A[Airflow] --> S[Spark]
        D[dbt] --> DW[Data Warehouse]
    end
    subgraph Governança
        C[Catálogo: DataHub / Purview]
        Q[Qualidade: Great Expectations / Soda]
        L[Linhagem: OpenLineage / dbt]
    end
    S & D & A --> L
    DW --> Q
    L & Q --> C
    C --> U[Usuário descobre e confia nos dados]

Como escolher

ContextoRecomendação
Stack DatabricksUnity Catalog + DataHub ou Atlan
Stack GCPDataplex (catálogo + qualidade integrados)
Stack AzureMicrosoft Purview
dbt-centricAtlan ou DataHub com integração nativa dbt
Open source puroDataHub + OpenLineage + Great Expectations
Empresa regulada com orçamentoCollibra ou Informatica IDMC

Ver também: governanca-de-dados | governanca-de-dados-frameworks | governanca-de-dados-aplicacao | python-qualidade-dados | databricks-unity-catalog | gcp-dataplex | ferramentas-engenharia-dados