NLP Etiquetado Por Temas

EL etiquetado de temas o topic tagging es un mecanismo automático que es muy utilizado para procesar textos y asignarles un tema o categoría, esto para la clasificación automática, por ejemplo de noticias, artículos científicos o posts de un blog.

Tiene diferentes aplicaciones de negocios para clasificar emails, tickets, reviews, todo el texto que pueda recibir una empresa en sus operaciones.

El etiquetado automático facilita las búsquedas de documentos, escala bien y rápido y puede ser un primer paso en un proceso semi-automatizado o completamente automatizado y en línea de clasificación de textos.

El método mas utilizado para hacer etiquetado por temas es LDA (Latent Dirichlet Allocation) este es un modelo estadístico generativo que permite explicar una serie de observaciones mediante grupos no observados que explican por que algunas partes de los datos son similares. Por ejemplo, en el caso que las observaciones son palabras dentro de documentos, el modelo implica la estructura que cada documento es una mezcla de temas y que cada palabra es atribuible a uno de los temas.

Otro método es clasificar los documentos respecto a su TF-IDF en una búsqueda, el TF-IDF es la (Term Frequency-INverse Document Frequency) y es una estadística para reflejar que tan importante es una palabra dentro de un documento dentro de una colección o corpus de documentos. Usualmente es utilizada como un factor para pesar en búsquedas, minería de texto y modelado de usuarios. El valor de la TF-IDF aumenta proporcionalemente al número de veces que la palabra aparece een un documento y decrece proporcionalmente al número de documentos en el corpus que contienen la palabra.

En estos modelos, el problema para generar una clasificación equivalente a una clasificación humana es que LDA y TF-IDF devuelven como temas palabras dentro de los mismos textos, para mejorar esto, se deben generar ontologías que para cada uno de los temas que un humano considere existen en el corpus y a estas ontologías se les debe asignar un conjunto de estos temas obtenidos por LDA o TF-IDF. Esto puede hacerse de manera manual o semi-automatizada con modelos de clasificación Bayesianos, que midan la probabilidad de que un documento tenga un tema basado en los scores de las diferentes palabras que lo componen o con listas generadas de palabras que agrupen los resultados de LDA.