big data

Los modelos de clasificación binaria son usados ampliamente en el ámbito empresarial, ya que sirven para asignar a cada individuo analizado la probabilidad de que pertenezca a uno de los dos grupos existentes. A continuación propongo unas recomendaciones para que cuando trabajes con modelos de este tipo, el resultado tenga capacidad predictiva y su comportamiento sea robusto.

1. Discretiza las variables independientes que sean continuas.

Raramente la relación entre una variable independiente y la variable objetivo es lineal. Estableciendo tramos en la variable independiente conseguirás captar tanto relaciones lineales como no lineales entre ambas.

2. Ten cuidado con el sobreajuste.

Existe la posibilidad de que el modelo construido clasifique con éxito a los individuos en la fase de entrenamiento pero que pierda rendimiento al aplicarlo sobre otros individuos. Para evitarlo, asegúrate de que la distribución de cada una de las variables independientes en el grupo de usuarios empleados en el cálculo de los coeficientes del modelo sea similar a la distribución de esas variables en la población a la que vas a clasificar.

3. Reserva un porcentaje de tus datos para validar el resultado del modelo.

Si obtienes los coeficientes del modelo con una fracción de los individuos disponibles podrás utilizar al resto para estimar el rendimiento que el modelo tendrá en nuevos individuos. Si la capacidad predictiva es muy diferente en ambos grupos es muy posible que el modelo esté sobreajustado.

4.Cuánto más simple sea el modelo final, más robusto será su comportamiento.

La variabilidad de tus datos muestrales no recoge todas las casuísticas poblacionales, por lo que es posible que alguna variable independiente tenga en realidad una relación con la variable target, distinta de la que recogen tus datos muestrales. Cuantas menos variables independientes tenga tu modelo final, menos probabilidades tendrás de que para alguna de ellas no hayas recogido la relación real con la variable objetivo. Si incluyendo una variable adicional que mejora poco la capacidad predictiva del modelo, es mejor no añadirla.

5. Utiliza diferentes técnicas analíticas y evalúa los resultados de todas ellas en el dataset reservado para ese fin.

Hay distintos algoritmos que resuelven problemas de clasificación binaria. Entrena modelos con varios de ellos empleando una parte de los datos y evalúalos con el resto de registros. Selecciona el que te proporcione un mayor equilibrio entre capacidad predictiva y facilidad de interpretación y operativización.

6. Elimina la estacionalidad que puedan tener las variables explicativas.

Los atributos de los individuos que utilizas para predecir a qué grupo pertenecen pueden tener valores muy diferentes en distintos días de la semana o en distintos meses del año. Eliminando esa estacionalidad conseguirás que esa variabilidad no penalice el rendimiento de tu modelo de clasificación.

7. Define la ventana temporal de respuesta de forma que esté alineada con las posibles acciones en las que se vaya a utilizar el score generado.

Si tus campañas de prevención del abandono tienen periodicidad mensual, tu modelo será más útil si defines la variable objetivo en función de si los clientes se dieron de baja en un periodo de un mes, que si la defines atendiendo a si solicitaron la baja o no en un periodo de un año.

8. Genera un número alto de variables independientes combinando las métricas disponibles con diferentes niveles de las dimensiones, y obtén una shortlist con la que entrenar el modelo final.

A priori es complicado saber qué nivel de las dimensiones nos proporcionará variables independientes con mayor capacidad predictiva. Por ejemplo, si calcular la actividad de un cliente en la semana anterior a hacerle una oferta, o si hacerlo en el mes o en el trimestre anterior. Sé generoso combinando tus métricas con varios niveles de tus dimensiones, generando así cientos o miles de posibles variables independientes. A partir de ellas, quédate con las 50 o 60 que tengan una mayor capacidad predictiva para obtener tu modelo final.

9. Si la tasa de individuos con respuesta positiva es muy pequeña utiliza técnicas de bajomuestreo o sobremuestreo antes de entrenar el modelo.

Las técnicas que tratan de minimizar el error de predicción, ante una tasa muy baja de respuestas positivas optarán por clasificar a todos los individuos en el grupo de respuesta negativa. De esta forma cometerán muy poco error de predicción. Bajomuestrea o sobremuestrea tus datos para trabajar con una tasa de respuestas positivas superior al 10%.

10. Define la ventana temporal de análisis teniendo en cuenta el tiempo que transcurrirá entre que generes el score y que sea operativo.

Si quieres saber quiénes de tus clientes son más propensos a canjear un cupón que les vas a enviar por correo postal, tendrás que asegurarte de no incluir en las variables explicativas información de los “n” días que tarda la carta en llegar hasta el cliente desde el momento en el que utilices el resultado del modelo para seleccionar al público objetivo de la acción.

Comentarios

Deja tu comentario: