Saltar al contenido

M13- Cómo hacer un Clasificador de Pliegos todoterreno (y de otros tipos de textos) usando PLN.

Tutor: Gustavo Jaca

Descripción

El Dataset consiste en una base de datos con ~100.000 pliegos y licitaciones de diferentes organismos nacionales públicos y privados, recolectados en los últimos 5 años. Surgen de un sistema/servicio orientado a monitorear la aparición de oportunidades de negocios, bajarlas a una base de datos, normalizarlas y luego de clasificarlas, informar a usuarios de acuerdo a diferentes áreas de interés. Así, un usuario del sistema recibe automáticamente una alerta cada vez que una oportunidad comercial que coincide con su perfil es publicada.

Como parte de la cadena de procesamiento, el clasificador etiqueta los pliegos en función de reglas estáticas, en su mayoría keywords, que dejan mucho terreno para optimizar. El lenguaje, en particular, está lleno de ambigüedades y un sistema tan rígido y estático deja mucho espacio para mejorar usando Aprendizaje Automático (Machine Learning).

El desafío es desarrollar un «Clasificador» que a través del uso de técnicas de PLN (Procesamiento de Lenguaje Natural ) pueda clasificar más eficientemente a qué rubro o categoría pertenece un pliego a partir del texto descriptivo del mismo y de campos accesorios. El problema es un claro candidato para aplicar técnicas de Aprendizaje Supervisado (Clasificación), ya que varias fuentes ya proveen un rubro de categorización desde su origen. Con el devenir del análisis pondremos algunos cuestionamientos sobre la categorización original de la propia fuente, pero de igual manera sigue siendo un problema de Aprendizaje Supervisado.

Este tema es interesante porque...

Es interesante para el problema en sí mismo porque permite automatizar un proceso de clasificación muy artesanal y muy lento. Sin el uso de Machine Learning, la clasificación solamente puede realizarse mediante la búsqueda de keywords o frases, que trae aparejados muchos falsos positivos o errores de clasificación dada la ambigüedad del propio lenguaje.
A su vez, como todo problema relacionado con el PLN y la clasificación, puede ser utilizado luego para otros tipos de contenidos, permitiendo clasificar libros, noticias, textos, tweets, posteos, artículos, etc.

Trataremos de responder algunas de las siguientes preguntas

– ¿Podemos clasificar un texto únicamente a partir de su contenido?
– ¿Qué criterio tomar cuando un pliego pertenece a más de una categoría?
– ¿Podemos tomar los rubros de diferentes fuentes como equivalentes?
– ¿En el caso de las licitaciones, podemos complementar el contenido con otros datos asociados al pliego en sí?
– ¿Podemos considerar los rubros preexistentes como válidos?
– ¿Existe, al final, un patrón de periodicidad o estacionalidad en algunos segmentos que permitan ayudar a la clasificación?

Integrantes del grupo 1
Santiago Rosa - Franco Manini -
Sofia Gazzoni - Gonzalo Tizeira.
Integrantes del grupo 2
David Arch - Pablo Armesto -
Aldana Ruscitti - Fernando Gollan.