VISITAS:

jueves, 18 de junio de 2009

Etapas en el procesamiento de un texto

1. Análisis lingüístico
  1. Corrección ortográfica: corregir palabras mal escritas ayudado con un corrector ortográfico como ASpell. A veces aparecen abreviaturas y/o palabras recurrentemente mal escritas que el corrector ortográfico no puede corregir. En este caso se construye un diccionario de palabras especiales.
  2. Tokenización: partir el texto en unidades básicas (palabras, números, símbolos de puntuación)
  3. Segmentación en sentencias: partir el texto en sentencias y párrafos
  4. Etiquetado PoS: asignar una categoría gramatical a cada token
  5. Lematización: asignar un único lema (raíz) a cada token
  6. Filtrado de stop words: eliminación de palabras no relevantes. Se puede hacer bien mediante una lista de palabras o bien eliminando las categorías gramaticales que no aportan significado (artículos, preposiciones, conjunciones,etc)

RESULTADO: Corpus anotado lingüísticamente

2. Análisis Léxico-Semántico

  1. Análisis de frecuencia de palabras: frecuencia de cada palabra en cada documento y en todos los documentos
  2. Análisis de frecuencia de n-gramas: secuencias de n palabras consecutivas que aparecen con frecuencia (bigramas, trigramas, etc)
  3. Análisis de collocations: estudio estadístico de lemas que aparecen juntos frecuentemente, separados por un número limitado de palabras (habitualmente una ventana de 4 palabras a cada lado)
  4. Cálculo de la ganancia de información de los n-gramas. Eliminación de los n-gramas que den poca ganancia de información
  5. Construcción de Diccionario de features: se escogen los n-gramas más frecuentes de cada categoría (se pone un umbral por frecuencia de aparición o eligiendo los N más frecuentes)
  6. Opcional: construcción de diccionario de conceptos con sinónimos a partir de las features
  7. Construcción de term vector sobre el corpus: se utiliza el diccionario de features para obtener los n-gramas del corpus. Se puede utilizar el diccionario de conceptos para agrupar n-gramas sinónimos

1 comentario:

  1. Que tal!

    muy buen articulo, pero me queda una duda, como puedo aplicar lo de los bigramas y trigramas en python?

    gracias!

    ResponderEliminar