Data exploration y NLP con herramientas no-code

Antes de irme de vacaciones quería probar la plataforma Orange3 para analizar cómo funciona una herramienta «no-code» y explorar datos mediante NLP. Para ello, utilizaremos los siguientes ingredientes:

  • Datos: Listado con los topics de las llamadas de H2020 con codeID, título y objetivos. He elegido los topics relacionados con «connected car», «autonomous vehicle», «transportation», … para ver cómo se relacionan entre ellos. Aquí tenéis el enlace al fichero CSV con los datos en la web EU Open Data Portal.
  • Herramientas: Orange3 con el add-on Text Mining. Aquí tenéis una lista con los diferentes widgets disponibles. Se trata de una herramienta Open Source de la Universidad de Ljubljana con documentación más que suficiente (blog, tutoriales, …). Como herramienta no-code visual te permite centrarte en el problema y en los diferentes componentes que te proporcionan para poder analizarlo sin el «inconveniente» de la programación. Eso no significa que no debas aprender algo de Data Science y Machine Learning (échale un vistazo a este libro de IBM). Está basada en python y en las herramientas más comunes como gensim,
  • Receta: Es mi primera prueba con Orange3 así que los comentarios con bienvenidos. Os dejo un link con el flujo de trabajo para que no tengáis que generarlo desde cero.
Orange3 and NLP
Flujo de trabajo en Orange3 para Hierarchical Clustering y Topic Modeling.
Continuar leyendo «Data exploration y NLP con herramientas no-code»