Big Data refere-se a conjuntos de dados tão grandes, rápidos ou complexos que ferramentas tradicionais de processamento (como um banco relacional ou um script Python simples) não conseguem lidar com eficiência.

O termo ganhou força nos anos 2000 com a explosão de dados gerados por redes sociais, sensores IoT, logs de sistemas e transações digitais.

Os 5 Vs

VDefiniçãoExemplo
VolumeQuantidade massiva de dadosTerabytes de logs de acesso por dia
VelocityVelocidade de geração e processamentoTransações financeiras em tempo real
VarietyDiversidade de formatos e fontesJSON, CSV, imagens, vídeos, streams
VeracityConfiabilidade e qualidade dos dadosDados duplicados, inconsistentes ou incompletos
ValueCapacidade de extrair valor útilInsights que guiam decisões de negócio

Processamento: batch vs. streaming

Batch: processa grandes volumes acumulados em intervalos definidos (hora, dia). Mais simples, tolerante a latência.

Streaming: processa eventos individualmente à medida que chegam. Necessário quando a latência importa (fraude, recomendações em tempo real).

A maioria dos sistemas modernos combina os dois, padrão conhecido como Arquitetura Lambda (batch + streaming) ou Arquitetura Kappa (tudo como streaming).

Armazenamento distribuído

Big Data exige armazenamento e processamento distribuídos. Os paradigmas principais são:

  • HDFS (Hadoop Distributed File System): pioneiro no armazenamento distribuído em blocos
  • Object Storage (S3, GCS, ADLS): padrão atual, com separação entre compute e storage
  • Processamento in-memory: Apache Spark processa dados em memória distribuída, muito mais rápido que MapReduce

De onde vêm os dados

  • Transacionais: bancos relacionais (OLTP), ERPs, CRMs
  • Comportamentais: cliques, sessões, eventos de app
  • Máquinas/IoT: sensores, logs de sistemas, telemetria
  • Externos: APIs de terceiros, feeds de redes sociais, dados públicos

Ver também: engenharia-de-dados | pipeline-de-dados | data-lake-lakehouse