VISITAS:

miércoles, 10 de junio de 2009

Introducción a Information Retrieval

1. Vector Space Model (VSM)

VSM representa los documentos y las cadenas de búsqueda como vectores de T dimensiones (donde T es el número de terminos distintos que hay en la colección de documentos).

Cuando se indexa un documento se siguen las siguientes etapas:
  1. tokenización: separa las palabras delimitadas por espacios o signos de puntuación.

  2. filtrado de stop words: elimina las palabras muy frecuentes (preposiciones, artículos, pronombres)

  3. stemming: elimina los sufijos de las palabras (palabras, conjugaciones verbales, etc) para reducirlas a su raíz

Los términos resultantes de este proceso son los términos del documento. Los componentes o pesos del vector de un documento se construyen según el número de veces que aparece cada término en el documento. Estos pesos se dividen después por el número de documentos que contienen cada término. Así, el peso de un término es directamente proporcional al número de veces que aparece el término en el documento e inversamente proporcional a los documentos que contienen dicho término en toda la colección. Esta forma de definir los pesos se denomina TF-IDF (term frequency inverse document frequency).

Para buscar en los documentos, el usuario introduce una cadena de búsqueda. El motor de búsqueda genera una lista de documentos ordenada según la similitud con la cadena de búsqueda. La similitud entre la cadena de búsqueda y un documento se obtiene utilizando como métrica de similitud el coseno del ángulo que forman los dos vectores (el de la cadena de búsqueda y el del documento). Para ello se calcula el producto escalar de los dos vectores y se divide por la raíz cuadrada del producto de los módulos de los dos vectores. La similitud de un documento y una cadena de búsqueda depende altamente del número de términos que tienen ambos en común.

A veces, el vector de términos se compone de varios subvectores. Cada subvector representa un aspecto diferente del documento. Por ejemplo, un subvector podría contener los términos extraidos del documento, otro subvector podría contener las frases del documento, y otro subvector podría contener metadatos del documento (autor, fecha, etc). La similitud en este caso se calcularía como la suma ponderada (con pesos que hay que definir) de las similitudes de los distintos subvectores.

2. Efectividad de los sistemas de information retrieval

Existen varias medidas de la efectividad de un sistema de búsqueda. Habitualmente se confrontan precisión y recall. Precisión es la proporción de documentos resultados de la búsqueda que son relevantes. Recall es la proporción de documentos relevantes que se obtienen como resultado (frente a todos los documentos relevantes). Un sistema ideal de búsqueda obtendría un valor de 1.0 para ambas medidas. En la práctica, precisión y recall están inversamente relacionadas.

No hay comentarios:

Publicar un comentario