Tal vez una de las frustraciones más comunes de para quienes queremos hacer data science y no provenimos de una formación en disciplinas de ciencias computacionales es la barrera de la programación. La larga curva de aprendizaje para desarrollar habilidad en programación en lenguajes como Python o R desalienta a muchos a realizar análisis de datos basados en machine learning, inteligencia artificial, visualización de data y hasta procesamiento de grandes volúmenes de data.

Con este artículo se pretende despejar este oscuro panorama, ¡hay buenas noticias!, afortunadamente existen desarrollos de software que nos permiten hacer data mining y data science sin programación, hoy les vengo a hablar de KNIME. Konstanz Information Mine o mejor conocido como KNIME es un software open source desarrollado en Alemania, programado en Java y con una gran comunidad que aporta nuevas soluciones. Su interfaz está basada en una visualización de los procesos en flujos de nodos, así: Nodos Knime

Para empezar a usarlo solo basta arrastrar con el cursor del mouse los nodos y conectarlos, cada nodo tiene una configuración especifica basada en listas desplegables, nuestro repositorio de nodos tiene funcionalidades que van desde la lectura de archivos Excel, txt, json, csv, etc, procesamiento de data, hasta modelos predictivos y de clasificación. Como ven, no necesitamos programar para realizar operaciones complejas de trasformación y modelación de la data. La interfaz de Knime está dirigida hacia una visualización de objetos, podemos consultar en cada nodo la tabla correspondiente a la base de datos en cada nodo en el flujo de trabajo, podemos generar nuevas ramas de nuestro flujo a partir de cada nodo, con el fin de realizar validaciones de los modelos, análisis de sensibilidad, visualizaciones y análisis estadístico. Y si se programar? Si sabes programar te tengo aún mejores noticias, KNIME puede integrarse softwares como R, Python, PostgresSQL, Java, entre otros, es decir, podemos desplegar estos programas sin salir de KNIME y sacar provecho de todas librerías y funcionalidades que ofrecen. Por ejemplo, la integración con SQL nos permite conectarnos a repositorios de bases de datos y hacer consultas en ellas. La integración con R nos permite realizar predicciones con modelos lineales, realizar visualizaciones de ggplot2 entre otras funcionalidades. Estas integraciones hacen parte de las extensiones que pueden ser descargadas de manera gratuita desde el software, las extensiones incluyen nodos de integración a otros softwares, consulta de API, procesamiento de datos, análisis espacial, nodos especializados en química, biología y muchos más. Entonces es recomendable Knime? En mi opinión, es muy recomendable para realizar análisis de data science de manera rápida y fácil. La curva de aprendizaje es relativamente corta ya que una vez nos adaptamos al flujo de trabajo de nodos las combinación de estos se nos facilita mucho y nos da una perspectiva esquemática de cómo abordar un problema de data science, comenzando con la definición de un repositorio de datos, la lectura de las bases, la creación de querys, la limpieza de los datos, el análisis descriptivo de los datos y por último la utilización de modelos predictivos para generar soluciones en nuestras organizaciones. Y si te quedan dudas aquí te dejo el diagrama gartner que compara las principales herramientas de data mining en el mercado en el 2018, donde Knime se ubica como líder en la industria por encima de muchos open source y programas de licencia paga:

Cuadrante data Science

No se diga más, manos a la obra a instalar KNIME: https://www.knime.com/downloads Algunos recursos didácticos, que incluyen tutoriales y videos en Youtube: https://www.knime.com/resources

Comentar