NLP Lematizacion
La lematización consiste en remover la inflexión de las palabras de un texto generando una sola forma base. Existen dos niveles de generación de lemas. El stemming es un método en el que todas las palabras son llevadas a una forma base sin tomar en cuenta la parte de la oración a la que se refieren. En el caso del stemming, se obtiene una raíz de un conjunto de palabras relacionadas mediante un conjunto de reglas de producción, las cuales generalmente quitan los sufijos y prefijos. Muchos de estos programas, como el Porter stemmer o su sucesor el Snowball stemmer, pueden usar diferentes reglas o incluso se pueden generar tablas para colapsar las formas inflectadas a una forma base.
En el caso de la lematización formal, se debe conocer la parte de la oración de la palabra, así como la palabra raíz. Esto para conocer las reglas de producción que devuelven la forma base. Una manera trivial de generar un lematizador es utilizando un diccionario con infexiones y posteriormente, para las palabras desconocidas utilizar la parte de la oración y las reglas de producción para encontrar la palabra raíz.
Existen diferentes algoritmos de lematización, el mas formal, consiste en conocer las diferentes terminaciones de las palabras y llevar las formas inflexionadas a su forma base, usualmente con una mezcla de reglas y un diccionario.
Otros, como el Snowball stemmer, que es menos formal tiene una serie de reglas para el idioma inglés en la cual elimina sufijos y prefijos y lleva las palabras a una raiz “base” sin tomar en cuenta la gramática ( es bueno par eliminar plurales, o la tarcera forma del singular en inglés, pero lleva palabras de diferente significado o raíz a la misma forma base).