Big Data

Big Data refere-se a conjuntos de dados tão grandes, rápidos ou complexos que ferramentas tradicionais de processamento (como um banco relacional ou um script Python simples) não conseguem lidar com eficiência.

O termo ganhou força nos anos 2000 com a explosão de dados gerados por redes sociais, sensores IoT, logs de sistemas e transações digitais.

Os 5 Vs

V	Definição	Exemplo
Volume	Quantidade massiva de dados	Terabytes de logs de acesso por dia
Velocity	Velocidade de geração e processamento	Transações financeiras em tempo real
Variety	Diversidade de formatos e fontes	JSON, CSV, imagens, vídeos, streams
Veracity	Confiabilidade e qualidade dos dados	Dados duplicados, inconsistentes ou incompletos
Value	Capacidade de extrair valor útil	Insights que guiam decisões de negócio

Processamento: batch vs. streaming

Batch: processa grandes volumes acumulados em intervalos definidos (hora, dia). Mais simples, tolerante a latência.

Streaming: processa eventos individualmente à medida que chegam. Necessário quando a latência importa (fraude, recomendações em tempo real).

A maioria dos sistemas modernos combina os dois, padrão conhecido como Arquitetura Lambda (batch + streaming) ou Arquitetura Kappa (tudo como streaming).

Armazenamento distribuído

Big Data exige armazenamento e processamento distribuídos. Os paradigmas principais são:

HDFS (Hadoop Distributed File System): pioneiro no armazenamento distribuído em blocos
Object Storage (S3, GCS, ADLS): padrão atual, com separação entre compute e storage
Processamento in-memory: Apache Spark processa dados em memória distribuída, muito mais rápido que MapReduce

De onde vêm os dados

Transacionais: bancos relacionais (OLTP), ERPs, CRMs
Comportamentais: cliques, sessões, eventos de app
Máquinas/IoT: sensores, logs de sistemas, telemetria
Externos: APIs de terceiros, feeds de redes sociais, dados públicos

Ver também: engenharia-de-dados | pipeline-de-dados | data-lake-lakehouse

Second Brain

Explorer

Big Data

Table of Contents

Os 5 Vs

Processamento: batch vs. streaming

Armazenamento distribuído

De onde vêm os dados

Graph View

Backlinks