O mercado de ferramentas de governança de dados cresceu rapidamente e cobre quatro grandes categorias: catálogo, linhagem, qualidade e controle de acesso. A maioria das ferramentas modernas combina mais de uma dessas funções.
Catálogo de dados
Open source
- DataHub (LinkedIn): catálogo de metadados com suporte a linhagem automática, APIs REST/GraphQL e ampla lista de integrações. O mais adotado no ecossistema aberto.
- Apache Atlas: catálogo e governança com foco em ecossistemas Hadoop/Hive. Mais pesado, menos adotado em ambientes cloud-native modernos.
- OpenMetadata: moderno, API-first, com suporte a qualidade de dados integrada e linhagem.
- Amundsen (Lyft): focado em descoberta de dados. Mais simples que o DataHub, mas com funcionalidades mais limitadas.
Comercial
- Collibra: plataforma completa com glossário de negócio, workflows de aprovação, linhagem e qualidade. Líder de mercado em empresas reguladas.
- Alation: foco em usabilidade e adoção pelo usuário de negócio. Bom para criar cultura de dados.
- Atlan: moderna, API-first, integra bem com stack moderna (dbt, Airflow, Snowflake).
- Informatica IDMC: suite completa mas complexa, legacy em muitas empresas.
Cloud-native
- Microsoft Purview: catálogo e governança nativo do Azure. Integra com Azure Data Factory, Synapse e Power BI.
- Google Dataplex: plataforma de governança do GCP com catálogo, qualidade e controle de acesso integrados. Ver gcp-dataplex.
- AWS Glue Data Catalog: catálogo básico da AWS, integrado ao Glue ETL e Athena.
Linhagem de dados
A linhagem pode ser capturada de duas formas:
Linhagem estática (parse-time): análise de código SQL/Python para extrair dependências antes da execução. O dbt faz isso nativamente, gerando um DAG de modelos com linhagem completa.
Linhagem em tempo de execução (runtime): instrumentação do pipeline para capturar o fluxo real durante a execução. Ferramentas como OpenLineage e Marquez seguem esse modelo.
| Ferramenta | Tipo | Integração |
|---|---|---|
| dbt | Estática (SQL) | DataHub, Collibra, Atlan |
| OpenLineage | Runtime | Airflow, Spark, Flink |
| Marquez | Runtime (backend) | OpenLineage, Jupyter |
| DataHub | Ambos | Airflow, Spark, dbt, Kafka |
Qualidade de dados
- Great Expectations: define expectativas como testes Python. Integra com pipelines e gera docs de qualidade automáticos.
- Soda: YAML-based, mais acessível para não-engenheiros. Tem plataforma SaaS (Soda Cloud) para monitoramento.
- dbt tests: testes integrados aos modelos dbt, executados no próprio DW. Cobrem unicidade, nulos, relações e valores aceitos.
- Monte Carlo: plataforma de observabilidade de dados com detecção de anomalias por ML (table freshness, volume, schema changes).
Ver python-qualidade-dados para uso com Python.
Controle de acesso e segurança
- Databricks Unity Catalog: catálogo e controle de acesso centralizado para todo o workspace Databricks (tabelas, volumes, modelos de ML). Ver databricks-unity-catalog.
- Apache Ranger: controle de acesso fine-grained para ecossistemas Hadoop.
- Privacera: ABAC (attribute-based access control) para múltiplas plataformas, incluindo cloud.
Como as ferramentas se encaixam
flowchart TB subgraph Ingestão e Transformação A[Airflow] --> S[Spark] D[dbt] --> DW[Data Warehouse] end subgraph Governança C[Catálogo: DataHub / Purview] Q[Qualidade: Great Expectations / Soda] L[Linhagem: OpenLineage / dbt] end S & D & A --> L DW --> Q L & Q --> C C --> U[Usuário descobre e confia nos dados]
Como escolher
| Contexto | Recomendação |
|---|---|
| Stack Databricks | Unity Catalog + DataHub ou Atlan |
| Stack GCP | Dataplex (catálogo + qualidade integrados) |
| Stack Azure | Microsoft Purview |
| dbt-centric | Atlan ou DataHub com integração nativa dbt |
| Open source puro | DataHub + OpenLineage + Great Expectations |
| Empresa regulada com orçamento | Collibra ou Informatica IDMC |
Ver também: governanca-de-dados | governanca-de-dados-frameworks | governanca-de-dados-aplicacao | python-qualidade-dados | databricks-unity-catalog | gcp-dataplex | ferramentas-engenharia-dados