Databricks · Engenharia de Dados

Pipeline Medallion — EmpregaDados

Implementação de uma arquitetura medallion (Bronze → Silver → Gold) no Databricks com PySpark e Delta Lake, transformando dados crus de pedidos e estabelecimentos em tabelas analíticas de vendas.

Ano 2024 Papel Engenharia de Dados Status Concluído

Ver a arquitetura

Contexto

O problema

Dados crus de pedidos e estabelecimentos (em CSV) não servem diretamente para análise: faltam limpeza, padronização e o cruzamento entre as fontes. Sem uma camada organizada, qualquer pergunta de negócio — vendas por loja, por produto — exige retrabalho.

O objetivo foi estruturar esses dados num lakehouse, de forma escalável e versionada, até chegar a tabelas prontas para consumo analítico.

Abordagem

A solução

Implementei a arquitetura medallion em três camadas no Databricks, com PySpark e tabelas Delta Lake:

Bronze — ingestão bruta dos CSVs em bronze.pedidos e bronze.estabelecimentos, preservando os dados como chegaram.

Silver — limpeza e enriquecimento em silver.pedidos, fazendo o join entre pedidos e estabelecimentos e tratando tipos e valores.

Gold — agregações de negócio: gold.venda_total_estabelecimentos (vendas por loja) e gold.venda_total_produto (vendas por produto), prontas para BI.

Como funciona

Arquitetura

Ferramentas

Stack & decisões

Databricks PySpark Delta Lake Spark SQL Arquitetura Medallion Modelagem dimensional

Todos os projetos Entre em contato