VISITAS:

miércoles, 14 de abril de 2010

Introducción a Sentiment Analysis/Opinion Mining

En una primera aproximación, cualquier información textual se puede clasificar en uno de estos dos grandes grupos: hechos y opiniones. Los hechos son sentencias objetivas sobre entidades o eventos que ocurren. Las opiniones son sentencias subjetivas que reflejan los sentimientos o percepciones de las personas sobre entidades o eventos.
Hasta ahora, gran parte de la investigación en el procesado del lenguaje natural se ha centrado (casi exclusivamente) en hechos (information retrieval y text mining). Los buscadores actuales y muchas otras herramientas se centran en buscar hechos.
Sin embargo, con la Web 2.0 los usuarios de Internet son los protagonistas que generan y comparten el contenido. Un usuario puede expresar su opinión sobre empresas, productos o cualquier cosa en foros, blogs, etc.
El siguiente paso será la búsqueda de opiniones. Por ejemplo, si alguien quiere comprarse un teléfono móvil concreto, podría buscar opiniones de usuarios sobre este modelo. Ya no se trata de buscar textos sobre un modelo de teléfono móvil, sino opiniones subjetivas sobre ese modelo.
Las opiniones son tan importantes que cuando alguien tiene que tomar una decisión, es muy conveniente escuchar las opiniones de otras personas. Y esto no sólo es cierto para personas, sino también para organizaciones.
Sentimental Analysis (también conocido como Opinion Mining) es una técnica que analiza un texto donde aparecen opiniones y sentimientos sobre algo. Se trata de realizar un análisis automático de opiniones, sentimientos y fenómenos subjetivos. Se trata de extraer los atributos y componentes del documento de forma que se pueda determinar con cierto grado de certeza si los comentarios son positivos, negativos o neutros.
Los textos están escritos en lenguaje natural. Por tanto nos enfrentamos a los problemas típicos del procesamiento automático del lenguaje natural (tales como la ambigüedad de las palabras, que dependen fuertemente del contexto).
Aplicaciones de sentimental analysis:
  • business intelligent: las empresas pueden utilizar estas técnicas para averiguar la opinión de sus clientes sobre sus propios productos y para obtener información de mercado sobre sus campañas de marketing.
  • recomendaciones automáticas: se trata de hacer ofertas personalizadas a usuarios que expresan ciertas opiniones sobre cierto producto; esto, combinado con sistemas de publicidad automática puede permitir automatizar y personalizar los sistemas actuales de venta directa y personalizada.

jueves, 21 de enero de 2010

WordNet en MySQL




Existe una versión de WordNet en tablas de base de datos (concretamente para MySQL).
Las tablas más importantes son:

word: tabla de palabras
  • wordid: PK
  • lemma: la palabra
synset: tabla de conceptos
  • synsetid: PK
  • pos: part of speech (n nombre, v verbo, a adjetivo, r adverbio, s adjetivo satélite)
  • categoryid: FK a categorydef
  • definition: definición del concepto
sense: sentidos de las palabras (relaciona word y synset)
  • tagcount: número de veces que aparece este concepto etiquetado en otros conceptos (determina la frecuencia de uso)
  • wordid: FK a word
  • casedwordid: si existe, FK a la palabra con la primera letra en mayúsculas
  • synsetid: FK a synset
  • rank: número de orden de este sentido
categorydef: categorías de conceptos
  • categoryid: PK
  • name: nombre de la categoría
  • pos: part of speech
sample: ejemplos de los conceptos
  • sampleid: PK
  • synsetid: FK a synset
  • sample: ejemplo
linkdef: tipos de relaciones entre conceptos
  • linkid: PK
  • name: nombre del enlace
semlinkref: relaciones entre conceptos
  • synset1id: FK a synset
  • synset2id: FK a synset
  • linkid: FK a linkdef