Big Data refere-se a conjuntos de dados tão grandes, rápidos ou complexos que ferramentas tradicionais de processamento (como um banco relacional ou um script Python simples) não conseguem lidar com eficiência.
O termo ganhou força nos anos 2000 com a explosão de dados gerados por redes sociais, sensores IoT, logs de sistemas e transações digitais.
Os 5 Vs
| V | Definição | Exemplo |
|---|---|---|
| Volume | Quantidade massiva de dados | Terabytes de logs de acesso por dia |
| Velocity | Velocidade de geração e processamento | Transações financeiras em tempo real |
| Variety | Diversidade de formatos e fontes | JSON, CSV, imagens, vídeos, streams |
| Veracity | Confiabilidade e qualidade dos dados | Dados duplicados, inconsistentes ou incompletos |
| Value | Capacidade de extrair valor útil | Insights que guiam decisões de negócio |
Processamento: batch vs. streaming
Batch: processa grandes volumes acumulados em intervalos definidos (hora, dia). Mais simples, tolerante a latência.
Streaming: processa eventos individualmente à medida que chegam. Necessário quando a latência importa (fraude, recomendações em tempo real).
A maioria dos sistemas modernos combina os dois, padrão conhecido como Arquitetura Lambda (batch + streaming) ou Arquitetura Kappa (tudo como streaming).
Armazenamento distribuído
Big Data exige armazenamento e processamento distribuídos. Os paradigmas principais são:
- HDFS (Hadoop Distributed File System): pioneiro no armazenamento distribuído em blocos
- Object Storage (S3, GCS, ADLS): padrão atual, com separação entre compute e storage
- Processamento in-memory: Apache Spark processa dados em memória distribuída, muito mais rápido que MapReduce
De onde vêm os dados
- Transacionais: bancos relacionais (OLTP), ERPs, CRMs
- Comportamentais: cliques, sessões, eventos de app
- Máquinas/IoT: sensores, logs de sistemas, telemetria
- Externos: APIs de terceiros, feeds de redes sociais, dados públicos
Ver também: engenharia-de-dados | pipeline-de-dados | data-lake-lakehouse