Inicio > Big Data: consejos para que tus modelos de clasificación binaria sean predictivos y robustos

Big Data: consejos para que tus modelos de clasificación binaria sean predictivos y robustos

Recurso artículo | Big data | 4 minutos de lectura


Luis Hidalgo Pérez
Responsable de Data Science

big data

1. Discretiza las variables independientes que sean continuas.

Raramente la relación entre una variable independiente y la variable objetivo es lineal. Estableciendo tramos en la variable independiente conseguirás captar tanto relaciones lineales como no lineales entre ambas.

2. Ten cuidado con el sobreajuste.

Existe la posibilidad de que el modelo construido clasifique con éxito a los individuos en la fase de entrenamiento pero que pierda rendimiento al aplicarlo sobre otros individuos. Para evitarlo, asegúrate de que la distribución de cada una de las variables independientes en el grupo de usuarios empleados en el cálculo de los coeficientes del modelo sea similar a la distribución de esas variables en la población a la que vas a clasificar.

3. Reserva un porcentaje de tus datos para validar el resultado del modelo.

Si obtienes los coeficientes del modelo con una fracción de los individuos disponibles podrás utilizar al resto para estimar el rendimiento que el modelo tendrá en nuevos individuos. Si la capacidad predictiva es muy diferente en ambos grupos es muy posible que el modelo esté sobreajustado.

4.Cuánto más simple sea el modelo final, más robusto será su comportamiento.

La variabilidad de tus datos muestrales no recoge todas las casuísticas poblacionales, por lo que es posible que alguna variable independiente tenga en realidad una relación con la variable target, distinta de la que recogen tus datos muestrales. Cuantas menos variables independientes tenga tu modelo final, menos probabilidades tendrás de que para alguna de ellas no hayas recogido la relación real con la variable objetivo. Si incluyendo una variable adicional que mejora poco la capacidad predictiva del modelo, es mejor no añadirla.

5. Utiliza diferentes técnicas analíticas y evalúa los resultados de todas ellas en el dataset reservado para ese fin.

Hay distintos algoritmos que resuelven problemas de clasificación binaria. Entrena modelos con varios de ellos empleando una parte de los datos y evalúalos con el resto de registros. Selecciona el que te proporcione un mayor equilibrio entre capacidad predictiva y facilidad de interpretación y operativización.

6. Elimina la estacionalidad que puedan tener las variables explicativas.

Los atributos de los individuos que utilizas para predecir a qué grupo pertenecen pueden tener valores muy diferentes en distintos días de la semana o en distintos meses del año. Eliminando esa estacionalidad conseguirás que esa variabilidad no penalice el rendimiento de tu modelo de clasificación.

7. Define la ventana temporal de respuesta de forma que esté alineada con las posibles acciones en las que se vaya a utilizar el score generado.

Si tus campañas de prevención del abandono tienen periodicidad mensual, tu modelo será más útil si defines la variable objetivo en función de si los clientes se dieron de baja en un periodo de un mes, que si la defines atendiendo a si solicitaron la baja o no en un periodo de un año.

8. Genera un número alto de variables independientes combinando las métricas disponibles con diferentes niveles de las dimensiones, y obtén una shortlist con la que entrenar el modelo final.

A priori es complicado saber qué nivel de las dimensiones nos proporcionará variables independientes con mayor capacidad predictiva. Por ejemplo, si calcular la actividad de un cliente en la semana anterior a hacerle una oferta, o si hacerlo en el mes o en el trimestre anterior. Sé generoso combinando tus métricas con varios niveles de tus dimensiones, generando así cientos o miles de posibles variables independientes. A partir de ellas, quédate con las 50 o 60 que tengan una mayor capacidad predictiva para obtener tu modelo final.

9. Si la tasa de individuos con respuesta positiva es muy pequeña utiliza técnicas de bajomuestreo o sobremuestreo antes de entrenar el modelo.

Las técnicas que tratan de minimizar el error de predicción, ante una tasa muy baja de respuestas positivas optarán por clasificar a todos los individuos en el grupo de respuesta negativa. De esta forma cometerán muy poco error de predicción. Bajomuestrea o sobremuestrea tus datos para trabajar con una tasa de respuestas positivas superior al 10%.

10. Define la ventana temporal de análisis teniendo en cuenta el tiempo que transcurrirá entre que generes el score y que sea operativo.

Si quieres saber quiénes de tus clientes son más propensos a canjear un cupón que les vas a enviar por correo postal, tendrás que asegurarte de no incluir en las variables explicativas información de los “n” días que tarda la carta en llegar hasta el cliente desde el momento en el que utilices el resultado del modelo para seleccionar al público objetivo de la acción.


Recursos relacionados

18 Oct 2016
Diseño centrado en el usuario: el diseño de tu web lo elige el usuario, no tú

Si el diseño de tu web se basa en la parte estética, capacidades técnicas y objetivos de negocio, estás malgastando tu tiempo y dinero. La web de una empresa es su escaparate digital y su verdadera finalidad es convertir. Es decir, conseguir que el usuario realice una acción como comprar un producto o enviar un formulario de contacto. La base de un diseño centrado en el usuario efectivo es precisamente conocer y entender a ese usuario. Al fin y al cabo es este quien va a utilizar la web y quien decidirá si compra o no.

17 Oct 2016
10 claves para tener en cuenta antes de crear una estrategia SEM

Crear una estrategia SEM de éxito requiere de altas dosis de reflexión, método, pensamiento inverso, cálculos y mucho foco. A continuación detallo las 10 claves indispensables para desarrollar e implementar un buen trabajo de SEM:

13 Oct 2016
El desafío de la atención al Cliente Digital

Nadie duda a día de hoy que estamos viviendo una verdadera revolución digital. La nueva economía digital se basa en Internet, cuya evolución ha posibilitado que el negocio eCommerce sea una realidad que nos permite realizar cualquier compra sin necesidad de pasar por una tienda física o desplazarnos a recoger los productos adquiridos.

11 Oct 2016
El cazatendencias: ¿qué hace, de qué manera, y cómo reconocer quién no es un cazatendencias?

El Coolhunting se puede ver desde diferentes puntos de vista, como: