Quais os métodos de modelo disponíveis na plataforma?

Atualmente na plataforma temos dois métodos de modelo de classificação implementados: a Regressão Logística (GLM) e o XGBoost (Ensemble Model).

A regressão logística é uma técnica estatística usada para modelar a probabilidade de uma observação pertencer a uma certa classe, normalmente binária (que assume apenas dois valores). Para isso, é feita uma aproximação linear que modela a relação entre a variável resposta (o que queremos prever) e as variáveis explicativas. Ou seja, o modelo estima uma função que tenta separar linearmente da melhor maneira possível as duas classes.

Já o XGBoost é um método de ensemble baseado em árvore de decisão. Para entender o que isso significa precisamos entender dois conceitos: o de árvore de decisão e o de ensemble, então vamos por partes.

Uma árvore de decisão é uma estrutura de dados que divide as observações em diferentes grupos baseados em valores de decisão das variáveis explicativas. É como se a cada galho da árvore, fizéssemos uma pergunta que pode ser respondida com “Sim” ou “Não”. Se a observação tem resposta “Sim”, ela segue por um caminho na árvore, do contrário ela segue por outro. O treinamento do modelo busca então as melhores perguntas que você pode fazer aos dados de modo a separá-los da melhor forma. Já um método de ensemble é baseado em unir diversos modelos que capturam diferentes padrões nos dados para obter um modelo mais consistente no final. Dessa maneira, o XGBoost é um modelo que une várias árvores de decisão.

Caso queira entender um pouco mais sobre como ele funciona, dê uma olhada no post Gradient Boostings do nosso blog.