Treino, Validação e Teste

Treino, validação e teste são os nomes dados aos três conjuntos de dados após o processo denominado holdout, que é a separação do conjunto de dados originais. 

 

Separar a sua base de dados em base de treino e base de teste é um ponto fundamental para validar seu modelo. A base de treino é aquela que, como o nome sugere, será utilizada para treinar seu modelo. Já a base de teste refere-se à amostra de dados que será utilizada para avaliar o desempenho do seu modelo no mundo real.

Realizamos esse processo para evitar um problema chamado overfitting, que é quando o modelo se sobreajusta aos dados ao invés de identificar padrões, isto é, é como se ao invés de aprender com os dados, ele decorasse quais as respostas corretas.

Então pense no que acontece em um modelo com overfitting. Se ele for testado na mesma base em que foi treinado, ele vai funcionar corretamente, pois vai apenas soltar as respostas decoradas que ele já viu antes. No entanto, se o testarmos em uma base diferente, vamos perceber que esse modelo na verdade não aprendeu e que ele não está performando bem na prática. Assim, usamos holdout para medir a capacidade de generalização de um modelo (se ele funciona bem em dados que ainda não viu).

 

Também existe uma terceira base de dados, a de validação. Para entender o seu propósito, cabe ressaltar a diferença entre o que são parâmetros e o que são hiperparâmetros do modelo.

Os parâmetros do modelo se referem a todo o aparato numérico que o modelo aprende durante seu treinamento, isto é, o valor dos coeficientes de uma função na regressão logística, as perguntas em cada árvore de decisão, etc. Além desses parâmetros, existem os chamados hiperparâmetros do modelo, que se referem a configurações do modelo estabelecidas antes do treinamento, como por exemplo, o número de perguntas que o modelo pode fazer no máximo em uma árvore.

Uma das fases durante o treinamento do modelo na plataforma é escolher os melhores hiperparâmetros possíveis, processo denominado otimização de hiperparâmetros, e é feito da seguinte forma: cria-se uma terceira base, a base de validação. Essa amostra dos dados tem como objetivo avaliar o desempenho do modelo durante a fase de otimização dos hiperparâmetros, onde são testados diversas combinações de modo a escolher aqueles com maior performance nessa base de validação. A base de teste fica então reservada para o teste final, quando o modelo já estiver otimizado.

 

Na plataforma, separamos o conjunto de dados em 70% para treino, 20% para validação e 10% para teste. Os resultados de treino, validação e teste são os valores de performance obtidos em cada um dos conjuntos de dados ao realizar a predição da variável resposta pelo modelo e comparar com o verdadeiro valor da variável resposta daquela observação, isto é, o valor da coluna da variável resposta na tabela que foi inserida.