Desde el texto plano hasta el significado del mismo, se pasa por una serie de etapas:
- Análisis sintáctico
- Tokenización
- Léxico
- Sintaxis
- Análisis semántico
- Análisis pragmático
La etapa de tokenización consiste en obtener los caracteres, las palabras y las sentencias. Esta etapa puede llegar a ser muy compleja en lenguas como el alemán o el chino, donde el espacio no delimita todos los tokens. El análisis léxico etiqueta cada token con su morfología (persona, género, número, tiempo, etc). El análisis sintáctico etiqueta la función de cada palabra dentro de la sentencia.
Las etapas de tokenización, léxico y sintaxis están muy estudiadas y se han conseguido resultados muy buenos. Sin embargo las otras dos etapas son muy complejas para un sistema automático.
Es importante señalar que en la práctica (o sea, en los sistemas que procesan el lenguaje natural), estas etapas no están completamente separadas, sino que comparten funciones. Por ejemplo, la tokenización en idiomas como el alemán podría depender de otros análisis posteriores para poder realizarse correctamente. Pero en cualquier caso, pedagógicamente estas son las etapas por las que hay que pasar para analizar el lenguaje natural.
Iremos viendo estas distintas etapas en profundidad más adelante.
No hay comentarios:
Publicar un comentario