Projetos
Python · Machine Learning

Detecção de Fraudes em Cartão de Crédito

Análise exploratória e modelo de classificação sobre 1,3 milhão de transações de cartão — identificando onde a fraude se concentra num cenário de classes fortemente desbalanceadas.

Ano 2024 Papel Análise de Dados / ML Status Concluído
Contexto

O problema

Fraude em cartão é um evento raro: numa base pública de 1.296.675 transações, apenas 0,58% são fraudulentas. Esse desbalanceamento extremo é justamente o que torna o problema difícil — um modelo ingênuo que "chuta tudo legítimo" acerta 99,4% e mesmo assim é inútil.

O objetivo foi entender onde a fraude se concentra e treinar um modelo capaz de separar o sinal do ruído sem se deixar enganar pela maioria.

Metodologia

A abordagem

Com Python e Pandas, fiz a leitura e o pré-processamento das transações, seguidos de uma análise exploratória (EDA) por categoria, valor e tempo. Depois, treinei um modelo de classificação com scikit-learn, tratando o desbalanceamento das classes e avaliando o desempenho em base de teste separada.

A EDA por categoria foi o passo mais revelador — é o que está no gráfico abaixo.

Achados

Onde a fraude se concentra

Impacto

Resultados

1,3M
transações analisadas
0,58%
taxa de fraude (classes desbalanceadas)
categoria de maior risco vs. média (shopping_net)
Ferramentas

Stack & decisões

Python Pandas scikit-learn Seaborn Matplotlib EDA