Python · Machine Learning

Detecção de Fraudes em Cartão de Crédito

Análise exploratória e modelo de classificação sobre 1,3 milhão de transações de cartão — identificando onde a fraude se concentra num cenário de classes fortemente desbalanceadas.

Ano 2024 Papel Análise de Dados / ML Status Concluído

Ver os achados

Contexto

O problema

Fraude em cartão é um evento raro: numa base pública de 1.296.675 transações, apenas 0,58% são fraudulentas. Esse desbalanceamento extremo é justamente o que torna o problema difícil — um modelo ingênuo que "chuta tudo legítimo" acerta 99,4% e mesmo assim é inútil.

O objetivo foi entender onde a fraude se concentra e treinar um modelo capaz de separar o sinal do ruído sem se deixar enganar pela maioria.

Metodologia

A abordagem

Com Python e Pandas, fiz a leitura e o pré-processamento das transações, seguidos de uma análise exploratória (EDA) por categoria, valor e tempo. Depois, treinei um modelo de classificação com scikit-learn, tratando o desbalanceamento das classes e avaliando o desempenho em base de teste separada.

A EDA por categoria foi o passo mais revelador — é o que está no gráfico abaixo.

Achados

Onde a fraude se concentra

Gráfico de barras da taxa de fraude por categoria: shopping_net lidera com 1,76%, seguida de misc_net (1,45%) e grocery_pos (1,41%), todas acima da média geral de 0,58%. — Compras online (`shopping_net`, `misc_net`) concentram as maiores taxas de fraude — bem acima da média geral.

Impacto

Resultados

1,3M

transações analisadas

0,58%

taxa de fraude (classes desbalanceadas)

3×

categoria de maior risco vs. média (shopping_net)

Ferramentas

Stack & decisões

Python Pandas scikit-learn Seaborn Matplotlib EDA

Todos os projetos Entre em contato