Que Es El NLP
El procesamiento de lenguaje natural es una subrama de la linguística, ciencias de la computación, ingeniería de la información e inteligencia artificial que se ocupa de las interacciones entre las computadoras y los humanos utilizando lenguaje natural (como el inglés o el francés), en particular como utilizar computadoras para procesar y analizar grandes volúmenes de datos en lenguaje natural.
Los retos en el procesamiento de lenguaje natural frecuentemente involucran reconocimiento de voz, comprensión de lenguaje natural y generación de lenguaje natural.
Historia
La historia del procesamiento de lenguaje natural generalmente comienza en los 1950’s, aunque existen trabajos previos En 1950 Alan turing publicó un artículo titulado “Computing Machinery and Intelligence” en el cual se propone la prueba de Turing como un criterio de inteligencia.
El experimento de Georgetown en 1954 fue un intento por crear traducciones automáticas inglés-ruso, este experimento, aunqeu prometedor falló en dar los resultados esperados posteriormente y de 1966 a 1980, los fondos para investigación en traducción automática fueron reducidos drásticamente.
Algunos experimentos fueron mas exitosos como SHRLDU, un sistema que trbajaba en comprensión del lenguaje con un vocabulario reducido y un motor de física, con esot se podía modificar el mundo del programa moviendo bloques de diferentes, formas, tamaños y colores ponerlos sobre una mesa, apilarlos y hacer preguntas sobre el estado del mundo. Otro sistema exitoso fue ELIZA, una simulación de un psicoterapeuta Rogeriano, escrito por Joseph Weizenbaum. En los años 1980s, el surgimiento del procesamiento de lenguaje natural estadístico, generó una revolución, antes de esto todas las reglas eran generadas de manera manual. Ahora, las reglas eran deducidas del mismo texto y se podían aplicar diversos modelos estadísticos a los corpus, y explotar los mismos.
Tareas principales
Inducción de gramáticas
Consiste en generar una gramática formal que describa la sintaxis del lenguaje. Esto es, las reglas que a partir de un alfabeto (o un vocabulario) producen oraciones válidas en ese lenguaje.
Lematización
Consiste en remover las terminaciones de inflexión y conjugación para regresar una forma básica de la palabra que se conoce como lema (descorazonado y coraza tienen el mismo lema “coraz”).
Etiquetado de partes de la oración
Dada una oración identificar las aprtes para cada palabra, esta tarea puede complicarse si una palabra tiene diferentes funciones gramaticales (dado es un juguete o una forma del verbo dar).
Análisis sintáctico (parsing)
Es un sistema que analiza una cadena de símbolos de acuerdo a las reglas de una gramática formal (o natural) produciendo un árbol de sintaxis.
Separación de oraciones
En general las oraciones se separan con símbolos como el punto, o los de interrogación o exclamación, pero estos tambien pueden ser utilizados en abreviaturas o interjecciones, por lo que se debe definir para cada uno un conjunto de reglas.
Segmentación en palabras
En general este proceso es sencillo, al menos para los lenguajes occidentales, pero existen lenguajes donde no se utilizan espacios donde se requiere utilizar la morfología y vocabulario del lenguaje.
Otras tareas son:
Detección del lenguaje, análisis de sentimiento, analisis de tema, creación de resúmenes, análisis de discurso, generación de lenguaje natural, corrección de ortografía, corrección de gramática.