El 12% de las palabras del inglés son polisémicas. Sin embargo, ese 12% (que parece una cifra muy baja) supone aproximadamente el 83% de las palabras utilizadas habitualmente.
Existen dos métodos para realizar WSI:
- topical context
- local context
Topical context busca sustantivos que co-ocurren habitualmente para un significado de una palabra polisémica. Por ejemplo, la palabra Java puede significar un lenguaje de programación o una isla del Pacífico (entre otras cosas). En un texto donde aparezcan co-ocurrencias como "java", "objeto", "clase", hay una probabilidad alta de que la palabra "java" se refiera aquí al lenguaje de programación. Sin embargo, si aparecen palabras como "java", "Pacífico", Indonesia", "budismo", probablemente se esté refiriendo a la isla de Java.
Local context busca pistas sintácticas y semánticas en palabras vecinas. Por ejemplo, "lenguaje java", "isla de java", permitirían identificar claramente el significado de la palabra "java" en cada uno de los casos.
Topical context funciona muy bien para identificar sentidos que no están relacionados semánticamente, como en el caso de la palabra "java" (sus significados están muy alejados semánticamente). Se trata de buscar las palabras vecinas en una ventana (de por ejemplo 50 palabras, o de dos sentencias) sobre la palabra a identificar.
Cuando los significados están cercanos semánticamente, el rendimiento de topical context cae. Por ejemplo, la palabra "bajo" que puede ser (entre otros significados) un instrumento musical o una voz en un coro. Ambos significados están cercanos semánticamente, ya que ambos están dentro del contexto de la música. En este caso, habría que utilizar local context. Se ha demostrado que las personas, cuando escriben, asignan un significado a una palabra polisémica en una ventana de 2 palabras alrededor de la palabra (o sea, 5 palabras en total: la palabra polisémica, las dos palabras anteriores y las dos palabras posteriores).
No hay comentarios:
Publicar un comentario