VISITAS:

jueves, 27 de octubre de 2011

Etapas clásicas en el procesamiento de un texto (1)

Volvemos a retomar el tema del procesamiento del lenguaje natural.
Desde el texto plano hasta el significado del mismo, se pasa por una serie de etapas:
  • Análisis sintáctico
  • Tokenización
  • Léxico
  • Sintaxis
  • Análisis semántico
  • Análisis pragmático
Las primeras etapas realizan un análisis que proporciona un orden y una estructura que es tratable por un sistema informático. En el análisis semántico se analiza el significado literal de cada término. Y en la última etapa se considera el contexto para ajustar el significado total de cada sentencia.
La etapa de tokenización consiste en obtener los caracteres, las palabras y las sentencias. Esta etapa puede llegar a ser muy compleja en lenguas como el alemán o el chino, donde el espacio no delimita todos los tokens. El análisis léxico etiqueta cada token con su morfología (persona, género, número, tiempo, etc). El análisis sintáctico etiqueta la función de cada palabra dentro de la sentencia.
Las etapas de tokenización, léxico y sintaxis están muy estudiadas y se han conseguido resultados muy buenos. Sin embargo las otras dos etapas son muy complejas para un sistema automático.
Es importante señalar que en la práctica (o sea, en los sistemas que procesan el lenguaje natural), estas etapas no están completamente separadas, sino que comparten funciones. Por ejemplo, la tokenización en idiomas como el alemán podría depender de otros análisis posteriores para poder realizarse correctamente. Pero en cualquier caso, pedagógicamente estas son las etapas por las que hay que pasar para analizar el lenguaje natural.
Iremos viendo estas distintas etapas en profundidad más adelante.

No hay comentarios:

Publicar un comentario