Engenharia de Dados
Área central do meu trabalho. Organiza conhecimentos sobre pipelines, arquiteturas, plataformas e ferramentas do ecossistema de dados.
Fundamentos
Arquitetura e Padrões
Ecossistema e Ferramentas
Plataformas
Databricks
Google Cloud Platform (GCP)
- gcp: visão geral da plataforma, hierarquia, IAM, regiões
Storage e Warehouse
- gcp-cloud-storage: object storage, data lake
- gcp-bigquery: data warehouse serverless
- gcp-bigquery-cobranca: on-demand, slots, edições, custos
- gcp-bigquery-sql: GoogleSQL, ARRAY, STRUCT, scripting, TVFs
- gcp-bigquery-otimizacao: particionamento, clustering, plano de execução
- gcp-biglake: governança sobre dados no GCS, column e row security
Processamento
- gcp-dataflow: Apache Beam gerenciado, batch e streaming
- gcp-dataproc: Hadoop/Spark gerenciado e serverless
- gcp-pubsub: mensageria assíncrona, ingestão de eventos
Orquestração e Transformação
- gcp-cloud-composer: Apache Airflow gerenciado
- gcp-bigquery-dataform: Dataform (SQLX), comparação com dbt
- gcp-bigquery-notebooks: notebooks nativos, BigQuery DataFrames
Apache Airflow
- airflow: visão geral, arquitetura, componentes, executores
- airflow-conceitos: DAG, Task, Operator, Sensor, Hook, XCom, Connection, Variable, Pool
- airflow-dag-desenvolvimento: estilo clássico, TaskFlow API, dynamic task mapping, boas práticas
- airflow-deploy-local: Docker Compose, setup local
- airflow-deploy-kubernetes: Helm chart, KubernetesPodOperator, GitSync
- airflow-aws-mwaa: Amazon MWAA gerenciado + deploy em EC2
- airflow-pipelines-batch: exemplos de pipelines batch e ETL
- airflow-pipelines-streaming: padrões event-driven, sensores, micro-batch
Governança e BI
- gcp-dataplex: catalogação, linhagem, data mesh, qualidade
- gcp-looker: Looker (LookML) e Looker Studio
- gcp-cloud-functions: funções serverless event-driven
Referência
- gcp-boas-praticas: IAM, custos, organização, IaC
- gcp-gcloud: CLI oficial do GCP
Governança de Dados
- governanca-de-dados: visão geral, pilares e modelo de responsabilidade
- governanca-de-dados-frameworks: DAMA-DMBOK, DCAM, Data Mesh e Data Fabric
- governanca-de-dados-ferramentas: catálogo, linhagem, qualidade e controle de acesso
- governanca-de-dados-aplicacao: como implementar na prática (glossário, catálogo, contratos, RBAC)