Google Cloud Platform (GCP)

Google Cloud Platform (GCP) é a plataforma de computação em nuvem do Google. Oferece infraestrutura (compute, storage, network) e serviços gerenciados de dados, IA/ML, segurança e DevOps.

É a cloud com maior legado em processamento de dados em escala: BigQuery, Dataflow e Pub/Sub nasceram de tecnologias internas do Google (Dremel, FlumeJava, Millwheel).

Hierarquia de recursos

graph TD
    A[Organization] --> B[Folders]
    B --> C[Projects]
    C --> D[Resources]
    C --> E[Service Accounts]

Tudo na GCP vive dentro de um Project. Cada projeto tem um project_id único e imutável, um project_number numérico e um nome display.

Serviços principais para engenharia de dados

Categoria	Serviço	Para que serve
Object Storage	Cloud Storage	Armazenamento de objetos, data lake
Data Warehouse	BigQuery	SQL analítico serverless em petabytes
Orquestração	Cloud Composer	Apache Airflow gerenciado
Serverless compute	Cloud Functions	Funções event-driven sem servidor
Processamento de stream/batch	Dataflow	Apache Beam gerenciado
Governança de dados	Dataplex	Data mesh, catalogação e qualidade
Mensageria	Sub	Mensageria assíncrona, ingestão de eventos
Hadoop / Spark gerenciado	Dataproc	Clusters Spark/Hadoop gerenciados ou serverless
BI	Looker Studio	Dashboards e exploração analítica

Bancos de dados

Tipo	Serviço	Modelo	Para que serve
Relacional gerenciado	Cloud SQL	MySQL, PostgreSQL, SQL Server	OLTP clássico, apps web, microsserviços
Relacional distribuído	AlloyDB	PostgreSQL-compatível	OLTP de alta performance + analytics + vetores
NewSQL global	Cloud Spanner	SQL + escala horizontal ilimitada	ACID em escala global, 99.999% SLA
Documento NoSQL	Firestore	Coleções / documentos JSON	Apps mobile/web, dados hierárquicos, real-time
Wide-column NoSQL	Cloud Bigtable	Coluna larga ordenada por row key	Séries temporais, telemetria, IoT, > 1 TB
Cache em memória	Memorystore	Redis / Memcached	Cache, sessões, filas, rate limiting

Guia rápido de escolha

Precisa de SQL + transações ACID?
  ├── Escala horizontal global e SLA 99.999%? → Spanner
  ├── Performance PostgreSQL + analytics/vetores? → AlloyDB
  └── Uso geral com menor custo? → Cloud SQL

Não precisa de SQL?
  ├── Documentos JSON, real-time, mobile? → Firestore
  ├── > 1 TB, séries temporais, alto throughput de escrita? → Bigtable
  └── Cache, sessões, filas em memória? → Memorystore

Identidade e acesso (IAM)

O modelo de permissões da GCP é baseado em roles associadas a principals em um resource:

Principal: usuário, grupo, service account ou domínio
Role: coleção de permissões (roles/bigquery.dataViewer, roles/storage.admin)
Policy: binding de principal + role em um resource

Roles podem ser atribuídas no nível de Organization, Folder, Project ou Resource (herança top-down).

Regiões e zonas

Region: localização geográfica (us-central1, southamerica-east1)
Zone: datacenter isolado dentro de uma região (us-central1-a, -b, -c)
Serviços como BigQuery e Cloud Storage são multi-regionais por padrão

Autenticação local

Ver gcp-gcloud para referência completa da CLI.

# Login pessoal (dev)
gcloud auth login
gcloud auth application-default login
 
# Definir projeto padrão
gcloud config set project MEU_PROJECT_ID
 
# Verificar configuração ativa
gcloud config list

Relacionamentos com outras ferramentas

Terraform: provisiona recursos GCP via hashicorp/google provider. Ver terraform-cloud-gcp
Databricks on GCP: workspace Databricks rodando sobre GCE + GCS
dbt + BigQuery: dbt usa BigQuery como warehouse de transformação

Second Brain

Explorer