u/jrenatobr

Eu to fazendo meu tcc na pós, e por falta de opções, tive que utilizar uma base com dados sintéticos, e o objetivo do trabalho era previsibilidade de quem cancelaria ou não o serviço, daí eu e meu grupo passamos por todas as etapas do CRISP-DM, não achamos nenhuma correlação muito clara, e quando chegou na parte de modelagem, qualquer modelo que eu usava estava performando muito mal pra prever quem realmente ia cancelar. Comecei usando random forest, depois fui testando outros modelos, como o gradient boost e mesmo depois de muito tempo e técnicas, como upsampling, pro modelo não treinar a base apenas analisando os dados dos usuários ativos, que era maioria, também fiz uso de pesos pro modelo “errar menos” onde estavam tendo falsos negativos, mas mesmo assim não consegui um resultado satisfatório. Terminei documentando isso no TCC, mas só pq fiquei curioso queria saber se já aconteceu com mais pessoas esse tipo de caso, onde uma base tem poucos registros de variável-alvo, e resolvi vir aqui pra saber se é normal acontecer esse tipo de situação trabalhando com dados sintéticos. Btw eu fiz o trabalho usando o rapidminer, não sei o quanto ele é utilizado no mercado, mas fiz isso pq tava com pouco tempo pra entregar essa etapa do TCC e parecia a solução que eu iria bater menos cabeça.

Uso de bases sintéticas