Ecossistema Hadoop na Prática: Executando Hadoop no Google Colab

Hadoop

Ecossistema Hadoop na Prática: Executando Hadoop no Google Colab

Vivemos em uma era onde dados são o novo petróleo — mas petróleo bruto não gera valor.

É preciso extrair, processar e transformar.

E foi exatamente para isso que surgiu o Apache Hadoop.

O Problema que o Hadoop Resolve

Antes do Hadoop, o modelo era simples:

Servidor mais poderoso

Mais CPU

Mais memória

Mais armazenamento

Isso se chama escala vertical.

Mas quando os dados começaram a crescer para terabytes e petabytes, essa estratégia deixou de funcionar.

O Hadoop trouxe uma mudança radical:

👉 Em vez de um servidor grande, usar vários servidores comuns

👉 Dividir os dados

👉 Processar em paralelo

👉 Agregar os resultados

Isso é escala horizontal.

Arquitetura do Hadoop

O Hadoop é composto por quatro pilares principais:

1️⃣ HDFS – Hadoop Distributed File System

Responsável pelo armazenamento distribuído.

Arquivos são quebrados em blocos

Cada bloco é replicado

Distribuído entre nós do cluster

Isso garante:

✔ Alta disponibilidade

✔ Tolerância a falhas

✔ Escalabilidade

2️⃣ YARN – Gerenciamento de Recursos

YARN é o “gerente” do cluster.

Ele:

Controla CPU e memória

Distribui tarefas

Coordena execução

3️⃣ MapReduce – Modelo de Processamento

Modelo baseado em duas fases:

Map → transforma dados

Reduce → agrega resultados

É simples conceitualmente, mas extremamente poderoso.

4️⃣ Hadoop Common

Bibliotecas e utilitários compartilhados.

Ecossistema Hadoop

O Hadoop evoluiu e ganhou um ecossistema completo:

Hive (SQL distribuído)

Pig (Dataflows)

HBase (NoSQL)

Spark (processamento em memória)

Sqoop (integração relacional)

Hoje, mesmo plataformas modernas como EMR, Dataproc e HDInsight utilizam os mesmos fundamentos.

Hadoop na Prática: Rodando no Google Colab

Agora vem a parte interessante.

Mesmo sem um cluster real, é possível simular um ambiente Hadoop no Colab.

No notebook disponibilizado, realizamos, toda explanação a seguir, consta também no colab que possui mais exercicios e mais práticas:

https://colab.research.google.com/drive/1lsYb7xP6gFk-Zwyzwl0Hkbk3aWIQ5KpK?usp=sharing

✅ 1. Instalação do Hadoop

Download manual da distribuição:

!wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
!tar -xzf hadoop-3.3.6.tar.gz

Configuração de variáveis:

export HADOOP_HOME=/content/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

✅ 2. Configuração do Ambiente

Ajustes de:

  • core-site.xml
  • hdfs-site.xml
  • yarn-site.xml

Simulando um pseudo-cluster.


✅ 3. Inicialização do HDFS

hdfs namenode -format
start-dfs.sh

Verificando diretórios:

hdfs dfs -ls /

✅ 4. Criando Estrutura no HDFS

hdfs dfs -mkdir /dados

Enviando arquivo:

hdfs dfs -put exemplo.txt /dados

📊 Exemplo Prático: WordCount

O clássico exemplo de processamento distribuído.

Entrada:

Arquivo de texto com múltiplas palavras.

Map:

Conta palavras individualmente.

Reduce:

Agrega contagens iguais.

Execução:

hadoop jar \
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar \
wordcount /dados /resultado

Resultado:

hdfs dfs -cat /resultado/part-r-00000

Isso demonstra claramente:

  • Divisão do processamento
  • Execução distribuída
  • Agregação final

Mesmo em ambiente simulado.


🧩 O Que Aprendemos Com Isso?

Rodar Hadoop no Colab ensina:

✔ Como o HDFS funciona
✔ Como MapReduce executa
✔ Como o cluster organiza tarefas
✔ Como o YARN gerencia recursos

E, mais importante:

É a base para outros recursos do ecossistema hadoop.

Prof. Dr. Fabio Gomes Rocha Professor do Programa de Pós-Graduação em Ciências da Computação da UFS Head of Software Arquitecture and Machine Learning - SafeLabs

Publicar comentário