Ecossistema Hadoop na Prática: Executando Hadoop no Google Colab
Vivemos em uma era onde dados são o novo petróleo — mas petróleo bruto não gera valor.
É preciso extrair, processar e transformar.
E foi exatamente para isso que surgiu o Apache Hadoop.
O Problema que o Hadoop Resolve
Antes do Hadoop, o modelo era simples:
Servidor mais poderoso
Mais CPU
Mais memória
Mais armazenamento
Isso se chama escala vertical.
Mas quando os dados começaram a crescer para terabytes e petabytes, essa estratégia deixou de funcionar.
O Hadoop trouxe uma mudança radical:
👉 Em vez de um servidor grande, usar vários servidores comuns
👉 Dividir os dados
👉 Processar em paralelo
👉 Agregar os resultados
Isso é escala horizontal.
Arquitetura do Hadoop
O Hadoop é composto por quatro pilares principais:
1️⃣ HDFS – Hadoop Distributed File System
Responsável pelo armazenamento distribuído.
Arquivos são quebrados em blocos
Cada bloco é replicado
Distribuído entre nós do cluster
Isso garante:
✔ Alta disponibilidade
✔ Tolerância a falhas
✔ Escalabilidade
2️⃣ YARN – Gerenciamento de Recursos
YARN é o “gerente” do cluster.
Ele:
Controla CPU e memória
Distribui tarefas
Coordena execução
3️⃣ MapReduce – Modelo de Processamento
Modelo baseado em duas fases:
Map → transforma dados
Reduce → agrega resultados
É simples conceitualmente, mas extremamente poderoso.
4️⃣ Hadoop Common
Bibliotecas e utilitários compartilhados.
Ecossistema Hadoop
O Hadoop evoluiu e ganhou um ecossistema completo:
Hive (SQL distribuído)
Pig (Dataflows)
HBase (NoSQL)
Spark (processamento em memória)
Sqoop (integração relacional)
Hoje, mesmo plataformas modernas como EMR, Dataproc e HDInsight utilizam os mesmos fundamentos.
Hadoop na Prática: Rodando no Google Colab
Agora vem a parte interessante.
Mesmo sem um cluster real, é possível simular um ambiente Hadoop no Colab.
No notebook disponibilizado, realizamos, toda explanação a seguir, consta também no colab que possui mais exercicios e mais práticas:
https://colab.research.google.com/drive/1lsYb7xP6gFk-Zwyzwl0Hkbk3aWIQ5KpK?usp=sharing
✅ 1. Instalação do Hadoop
Download manual da distribuição:
!wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
!tar -xzf hadoop-3.3.6.tar.gz
Configuração de variáveis:
export HADOOP_HOME=/content/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
✅ 2. Configuração do Ambiente
Ajustes de:
- core-site.xml
- hdfs-site.xml
- yarn-site.xml
Simulando um pseudo-cluster.
✅ 3. Inicialização do HDFS
hdfs namenode -format
start-dfs.sh
Verificando diretórios:
hdfs dfs -ls /
✅ 4. Criando Estrutura no HDFS
hdfs dfs -mkdir /dados
Enviando arquivo:
hdfs dfs -put exemplo.txt /dados
📊 Exemplo Prático: WordCount
O clássico exemplo de processamento distribuído.
Entrada:
Arquivo de texto com múltiplas palavras.
Map:
Conta palavras individualmente.
Reduce:
Agrega contagens iguais.
Execução:
hadoop jar \
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar \
wordcount /dados /resultado
Resultado:
hdfs dfs -cat /resultado/part-r-00000
Isso demonstra claramente:
- Divisão do processamento
- Execução distribuída
- Agregação final
Mesmo em ambiente simulado.
🧩 O Que Aprendemos Com Isso?
Rodar Hadoop no Colab ensina:
✔ Como o HDFS funciona
✔ Como MapReduce executa
✔ Como o cluster organiza tarefas
✔ Como o YARN gerencia recursos
E, mais importante:
É a base para outros recursos do ecossistema hadoop.
Publicar comentário