Masterclass: Lenguaje natural, inteligencia artificial, y las neuronas de Cervantes

¿Qué vamos a tratar?

Que la era de las grandes cantidades de datos ya ha llegado no es una noticia que nos pille por sorpresa. En nuestro día a día interactuamos con redes sociales, tiendas online y todo tipo de aplicaciones móviles que explotan los datos para ofrecernos un servicio más efectivo y personalizado. El valor para los negocios existente en los datos que generamos es innegable. Pero un hecho que a veces pasa desapercibido es que hasta un 80% de estos datos son duros de roer, ya que se generan en un formato idóneo para la vida cotidiana pero de difícil explotación sistemática: el lenguaje natural.

 

Mensajes en redes sociales, críticas de clientes sobre un producto, artículos, noticias o legislaciones, son todos fuentes de datos en texto que puede contener información de gran utilidad para el negocio. ¿Se conoce mi marca en las redes sociales? ¿Qué opinan mis clientes sobre mi producto? ¿Se ha patentado ya una idea similar a esta? ¿Puedo saber qué empresas aparecen en los medios? ¿Qué relevancia tiene en los medios un personaje político?

 

Son preguntas que pueden contestarse con análisis de mercado tradicionales, pero a las que también se les puede dar respuesta de forma automatizada y eficiente mediante el análisis masivo del texto. Más aún gracias a las recientes innovaciones en Inteligencia Artificial y Procesado del Lenguaje Natural, que han permitido avanzar significativamente en la capacidad de resolver automáticamente tareas eminentemente manuales, como la traducción, o la búsqueda y comparación de documentos relacionados.

 

Durante esta Master Class presentaremos una panorámica de las principales técnicas de Procesamiento del lenguaje natural e Inteligencia Artificial empleadas hoy día, y se expondrán algunos ejemplos prácticos de Opinion Mining, Named Entity Recogniton e Information Retrieval, entre otros. Además como ejemplo de aplicación de una clase de técnicas avanzadas Inteligencia Artificial (redes profundas) se presentará un prototipo que aprende el estilo de Cervantes y lo imita, generando nuevas versiones de El Quijote de forma automática.

¿Por qué Álvaro Barbero y Marta Guerrero?

Álvaro Barbero es el director del área de Ingeniería Algorítmica en el Instituto de Ingeniería del Conocimiento (IIC), así como investigador en el Grupo de Aprendizaje Automático de la Universidad Autónoma de Madrid (UAM). Cuenta con titulaciones de Ingeniero Superior (2006), Máster (2008) y Doctor (2011) en Ingeniería Informática por la UAM, con especialidad en Minería de Datos, y ha sido galardonado con el segundo puesto en la competición Texata 2015 Big Data Analytics World Championships.

 

Desde su posición en IIC ha participado en numerosos proyectos de Big Data, desde estrategias de detección de fraude y análisis de opinión en redes sociales, a sistemas de predicción de demandas y optimización de la gestión de stocks. En el campo académico es autor de 30 publicaciones internacionales y docente en varios cursos de minería de datos y aprendizaje automático. Durante su carrera ha colaborado con centros de investigación de prestigio como el Max Planck Institute for Intelligent Systems, IBM Research Watson o la Universidad de Tokyo. Su principal objetivo en la actualidad es crear innovaciones que transfieran los últimos avances científicos en el tratamiento de datos a proyectos de Big Data que aporten valor directo al negocio.

 

Marta Guerrero es coordinadora del área de Social Business Analytics en el Instituto de Ingeniería del Conocimiento (IIC). Marta lidera proyectos de Procesamiento del Lenguaje
Natural (PLN) y es responsable de Lynguo en el Instituto de Ingeniería del Conocimiento (IIC) desde hace más de 6 años. Ha trabajado en proyectos de investigación europeos y nacionales relativos a Procesamiento del Lenguaje Natural, creación de corpus lingüísticos, semántica computacional, extracción de información temporal, clasificación y recuperación de información textual. Su  principal objetivo es llevar a cabo proyectos donde se utilicen servicios PLN e realizar investigaciones con altas componentes lingüísticas que ayuden a que las herramientas sean más sofisticadas y precisas.