El blog de José Antonio Quiles Follana (joseanquiles): Pre-procesado del texto (2)

Los lenguajes naturales presentan muchas ambigüedades. Gran parte del procesamiento del lenguaje natural (NLP) consiste en resolver estas ambigüedades.

La primera etapa en todo sistema NLP es el preprocesamiento del texto a partir de la información de entrada, la cual básicamente será una secuencia de bits.

Para procesar un texto, es necesario en primer lugar definir claramente los caracteres, las palabras y las sentencias. Dependiendo del idioma, esta tarea puede ser más o menos sencilla.

Los caracteres son la unidad mínima del lenguaje escrito, las palabras constan de uno o más caracteres, y las sentencias constan de una o más palabras.

El pre-procesado del texto se divide en dos etapas:

Conseguir un documento de texto
Segmentación del texto

Obtener un documento de texto

Este proceso puede suponer varios pasos, dependiendo del documento original.

En primer lugar, para que el documento pueda almacenarse como texto, sus caracteres tienen que representarse con una codificación. Segundo, hay que identificar el idioma del documento, para determinar los algoritmos específicos de un idioma (este proceso puede estar relacionado a la codificación de los caracteres). En tercer lugar, hay que seccionar el texto, es decir, identificar el contenido textual quitando lo que no es texto, como imágenes, links, tablas, etc.

La salida de esta etapa es un corpus de documentos de texto, organizados por idioma.

Segmentar el texto

Este proceso convierte un corpus de textos en sus componentes: palabras y sentencias.

La segmentación en palabras despieza la secuencia de caracteres de un texto localizando los límites entre palabras, o sea, los puntos donde termina una palabra y comienza la siguiente.

Las palabras así identificadas se denominan tokens y al proceso de segmentar palabras se le denomina tokenización. Después de conseguir los tokens, hay que normalizar, que consiste en convertir las diversas formas de escribir un token en una forma canónica. Por ejemplo, los tokens "Sr" "señor" y "Señor" son equivalentes y tienen que normalizarse a una forma única.

La segmentación en sentencias detecta los límites entre sentencias, o sea, la última palabra de una sentencia y la primera palabra de la siguiente sentencia. Este proceso suele consistir en detectar unos determinados signos de puntuación como ".", ":", "!", "?", dependiendo del idioma.

En la práctica, la segmentación de palabras y sentencias no se pueden ejecutar como dos procesos independientes. Por ejemplo, las abreviaturas en muchos idiomas terminan en "." al igual que el final de una sentencia. Si por ejemplo, una abreviatura coincide con el final de una sentencia, entonces el "." marca tanto el final de la abreviatura como el final de la sentencia.

El blog de José Antonio Quiles Follana (joseanquiles)

VISITAS:

viernes, 28 de octubre de 2011

Pre-procesado del texto (2)

No hay comentarios:

Publicar un comentario

Buscar este blog

Archivo del blog

Seguidores

Datos personales