VISITAS:

viernes, 18 de septiembre de 2009

Weka para clasificación de textos

Tras haber estudiado y evaluado algunos entornos y librerías de machine learning y procesamiento de lenguaje natural (Weka, Rapid Miner, NLTK), he llegado a las siguientes conclusiones:
  • Weka es sencillo de utilizar, está escrito en Java y puede utilizarse en tres modos: GUI para empezar a probar, línea de comandos para ejecutar algoritmos y guardar resultados, y por último como una librería embebida dentro de un programa Java
  • RapidMiner, tiene unas características muy similares a Weka (de hecho, incluye todos los algoritmos de Weka y algunos más) e incluye un módulo para procesamiento de texto (que no lo veo útil por lo básico). Sin embargo es bastante complejo de utilizar y está peor documentado que Weka
  • NLTK está muy bien para empezar a hacer experimentos, pero no permite muchas facilidades. Y sobre todo, es Python, que aunque no está mal como lenguaje, no me termina de convencer

Me quedo con Weka, por lo menos para empezar. Con unos pocos tutoriales he sido capaz de hacer muchas cosas. Weka está orientado a Data Mining, sin embargo soporta un formato de fichero llamado Sparse ARFF que permite introducirle términos dispersos.

No hay comentarios:

Publicar un comentario