VISITAS:

miércoles, 29 de junio de 2011

Finalista artículo 2010 NOVATICA - UPGRADE

El año pasado Javier Pueyo y yo publicamos un artículo en las revistas NOVÁTICA (español) y UPGRADE (inglés) sobre tendencias en el procesamiento del lenguaje natural.
Este artículo ha resultado finalista en la V edición del premio Novática al mejor artículo de 2010:
http://www.ati.es/spip.php?article1775

Podeis ver el artículo completo aquí:
Artículo en español
Artículo en inglés

viernes, 17 de junio de 2011

Oportunidades, ¿qué hay dentro de los datos no estructurados?

Es obvio que el análisis de los datos no estructurados, concretamente texto, supone un coste en tiempo, dinero y recursos. ¿Por qué entonces una organización querría explorar un entorno de datos no estructurados?
Existe un mundo de información "sepultada" en los textos no estructurados. Las organizaciones tienen la oportunidad de tomar mejores decisiones, más fiables y más exactas, cuando se incorpora esta información en la toma de decisiones.
Dicho de otra forma, las organizaciones que miran sólo sus datos estructurados están perdiendo muchísima información para el proceso de toma de decisiones, ya que sólo están utilizando una fracción de la información de que disponen.
¿Qué información se oculta dentro de la información no estructurada?

  • Feedback de clientes: ¿a los clientes les gusta un nuevo producto o servicio? ¿lo odian?

  • Contratos: ¿qué contratos han llegado a acuerdos productivos?

  • Seguridad: ¿están los empleados diciendo cosas que no son adecuadas o que pueden comprometer la seguridad?

  • Marketing: ¿que dice la comunidad de clientes sobre los nuevos productos, servicios o la compañía?

  • Competencia: ¿qué sabemos sobre nuevos productos o servicios de la competencia?

  • Recursos humanos: ¿qué CV son adecuados para un perfil?


  • Pero quizás la mayor oportunidad de la información no estructurada está en la capacidad de combinarla con la información estructurada. Por ejemplo, la combinación de un cliente con todos sus e-mails.
    Veámoslo con un ejemplo. Tenemos la siguiente información estructurada sobre un cliente: profesión, domicilio, datos familiares, compras a nuestra empresa por un valor muy alto. Este cliente nos hace un nuevo pedido, pero el pedido llega a la dirección equivocada y tras un largo rodeo llega a su casa estropeado. El cliente nos envía un e-mail quejándose sobre la situación. En este caso, la correlación de información estructurada (cliente muy bueno) y no estructurada (está muy enfadado por el último pedido) es vital.

    jueves, 16 de junio de 2011

    Análisis de información no estructurada (II)

    En la mayoría de los entornos y en la mayoría de las circunstancias, el texto no es homogéneo. Dos personas hablan inglés, pero en la práctica, no expresan lo mismo con las mismas palabras.
    La aproximación clásica al procesamiento automatizado del texto es usar la semántica y el procesamiento del lenguaje natural. Pero yo prefiero otra aproximación (sin despreciar ni descartar la aproximación clásica): el texto está formado por palabras y por tanto es otra forma de datos. Esta aproximación nos libera de considerar el contexto. Es cierto que tomar las palabras fuera del contexto puede dar lugar en ocasiones a significados retorcidos. También es verdad que liberar a las palabras de su contexto nos abre la puerta a nuevos tipos de procesamiento que no son posibles cuando tenemos que pararnos a considerar el contexto. Es un compromiso, como casi siempre.

    Ahora mismo tenemos que dar respuestas a temas como:
  • ¿Cómo hacemos el puente para pasar del mundo no estructurado al mundo estructurado?

  • ¿Cómo almacenamos la información estructurada y la no estructurada en una base de datos?


  • Esta disciplina está ahora mismo (2011) en su infancia. Confío que con el trabajo de todos los que estamos en esto (al que modestamente quisiera contribuir como un granito de arena más) lleve al procesamiento de información no estructurada a su primera juventud.

    Análisis de información no estructurada (I)

    Después de bastante tiempo voy a intentar retomar el tema del análisis de la información no estructurada. Empiezo hoy haciendo una introducción general...

    La información estructurada se caracteriza por bases de datos, transacciones, registros, columnas, claves, etc. La información no estructurada se basa en correos electrónicos, hojas de cálculo, documentos, informes, etc.
    Estos dos mundos han ido creciendo por separado, como si ambos existieran en universos distintos. El mundo del análisis y la inteligencia de negocio ha crecido en torno a la información estructurada. Es un mundo que nos muestra resúmenes, informes, estadísticas. En este mundo tienen sentido fundamentalmente los números, las fechas y los hechos.
    En cuanto al mundo de la información no estructurada no existe ni mucho menos el avance ni la sofisticación que ha alcanzado el mundo estructurado. Aquí se ha conseguido implementar algunos (muy buenos) motores de búsqueda y poco más.
    ¿Significa esto que no haya información útil en un entorno no estructurado? La respuesta es, bajo mi punto de vista, absolutamente NO. Existe un montón de información importante y útil dentro de este entorno, pero no es fácilmente extraíble para poder manejarla y analizarla.
    Hay muchas razones por las que los datos textuales son mucho más difíciles de manejar que los datos estructurados. La primera razón es la pérdida de repetibilidad y la pérdida de predictibilidad de la información textual.

    Existen dos aproximaciones arquitecturales y técnicas para el análisis de la información no estructurada. La primera consiste en extraer el texto del entorno no estructurado y entonces analizarlo y manipularlo en ese mismo formato no estructurado. La otra aproximación consiste en extraer el texto del entorno no estructurado y entonces "convertirlo" a estructurado para analizarlo después con las técnicas de la información estructurada. Esta segunda aproximación podría parecer extraña o antinatural, sin embargo, existen poderosas razones para hacerlo así:

  • Si utilizamos las técnicas de tratamiento de la información estructurada nos podemos aprovechar de muchas herramientas y procedimientos existentes, muy probados y de comprobada utilidad.

  • En el mundo de la información no estructurada las herramientas suelen ser de tecnología propietaria (y en el caso de poder acceder a ella, resulta extremadamente cara). Sin embargo, existen multitud de plataformas y herramientas de software libre en el mundo de la información estructurada.

  • Si pasamos nuestra información no estructurada al mundo de la información estructurada, podremos establecer conexiones entre ambos mundos, haciendo posible algunos análisis que de otro modo no se podrían hacer. Por ejemplo, se podría construir un data warehouse que integrara tanto información estructurada como textual.

  • No sólo existen herramientas para el procesamiento de la información estructurada sino que también existen herramientas y métodos de análisis que pueden venirnos muy bien para estudiar los resultados del procesamiento de la información no estructurada.


  • Por tanto, nuestro método de trabajo va a ser extraer la información no estructurada de su entorno, convertirla a información estructurada, procesarla y analizarla con las técnicas de los entornos de información estructurada.

    miércoles, 15 de junio de 2011