representación gráfica de Big Data
Innovación

El reto de la Inteligencia Artificial: entrega rápida, desarrollo continuo

15 de agosto de 2023

Desarrollar un proyecto de Inteligencia Artificial, entendiendo que este complejo concepto engloba también a la estadística computacional y el machine learning, tiene distintas fases y una componente muy alta de incertidumbre, derivada de que no todo problema se puede resolver.

Afrontando con optimismo esta realidad, merece la pena idear soluciones que generen un valor directo, que marquen la diferencia. En mi trabajo como parte del Digital Hub de Ferrovial, pronto detectamos que, en muchas ocasiones, llegar a entregar valor era costoso con estos proyectos, requerían mucho tiempo para que se viera lo que se aporta.

Por ello, analizamos todo el proceso para entender cómo impacta la ciencia de los datos y de qué manera se pueden maximizar los beneficios de la IA que aplicamos. Aterrizamos en un plan en cuatro entregas: acceso a los datos, visualización y tratamiento, selección del mejor modelo, y puesta en producción.

  • Acceso a los datos

“Si se quiere un modelo, se necesitan datos”

Para esta primera fase, necesitamos el dato en crudo, es decir, entender cómo sale de la máquina generadora de datos (ya sea esta un sensor, una persona imputando gastos, un dron realizando videos…) para poder modelar el sistema en sí.

Se requiere que el dato esté disponible y tener acceso a la caja donde estos se guardan (ya sea esta caja un archivo de Excel, una base de datos SQL, un DataLake…) para poder tener un dato actualizado y con el que se trabaja habitualmente.

Necesitamos algunas cosas más, como la descripción del dato (¿qué significa cada variable?) y la frecuencia de actualización, pero por ahora, ya está bien de requisitos en esta etapa.

  •  Visualización y tratamiento

“Si se quiere un modelo, se necesita entender los datos”

Esta etapa es recurrente en todo proyecto de este tipo y se volverá a ella muchas veces.

Siempre empiezas entendiendo los datos que se tienen, te das cuenta de algunos problemas que tratas de solucionar con técnicas sencillas, como eliminar algunas observaciones porque son dudosas, seleccionar las imágenes en las que realmente se ve algo… Te enfrentas también a otros problemas para los que debes utilizar técnicas muy manuales, como marcar dónde está exactamente una matrícula en una imagen, y otras más complicadas, como decidir si un comportamiento es normal o no en una serie de generación eléctrica)

Pero siempre vuelves.

Siempre vuelves porque cuando el modelo no funcione, tendrás que ver qué les pasa a los datos.

Siempre vuelves porque cuando el modelo esté sesgado, tendrás que ver qué les pasa a los datos.

Siempre, siempre, siempre…

  •  Selección del mejor modelo

“Si se quiere un modelo, se necesita un modelo”

Cada problema, cada objetivo, tendrá un modelo con el que se consiga mejor.

La parte fundamental es entender el problema, porque en base a este se definirá el objetivo del modelo.

Una vez tienes un objetivo debes seleccionar el mejor modelo o, por lo menos, un modelo que cumpla las condiciones necesarias para aliviar, si no solucionar del todo, el problema inicial.

Y para eso pruebas, divides los datos de forma que puedas testar cada modelo como si ya lo fueras a utilizar.

Defines una métrica que quieres optimizar.

Y después de probar y probar, eliges el mejor, y… ¿ya está?

  • Puesta en producción

“Si se quiere un modelo, se quiere utilizar el modelo”

Y se puede utilizar de distintas formas.

Se puede utilizar con periodicidad: que el sistema coja nuevos datos, realice predicciones, y las guarde en algún sitio donde las puedas consumir.

Se puede utilizar bajo petición: que el sistema esté preparado para que le envíes datos en cualquier momento, y él te devuelva la predicción.

Y, se puede utilizar constantemente: que el sistema esté siempre realizando predicciones por que le envías datos sin parar.

Combinar los pasos para garantizar el impacto

¿Cómo aceleramos todos estos pasos compartidos en los distintos proyectos para entregar valor rápidamente?

Nosotros recurrimos a Stack MLOps, una serie de herramientas que permiten acelerar un 90% el tiempo de entrega de un MVP, producto mínimo viable:

  • Facilitando el acceso a los datos
  • Automatizando la selección de un modelo
  • Automatizando la puesta en producción

¡Y no solo eso!

Estas herramientas permiten que, una vez entregado el modelo automático, se pueda iterar en la sombra, realizando experimentos y comparando nuevos modelos desarrollados ad-hoc para el objetivo particular y cambiar de un modelo a otro de forma sencilla.

¿La forma de trabajo? Te conectas a los datos, los tratas como necesites, defines bien el problema y las métricas a optimizar y… ¡ya tienes el modelo listo para la puesta en producción!

¿Y después?

Después empieza el proceso de mejora continua de los modelos. Moviendo los hilos están los científicos de datos compartiendo las métricas que consiguen con modelos no contemplados, con aproximaciones nuevas al problema y, cuando mejoran el modelo en producción, lo cambian sin dificultades.

Esta es la forma de trabajo en ciencia de datos en nuestro Centro de Excelencia de Inteligencia Artificial.

Obteniendo valor rápido, aumentándolo día a día.

Todavía no hay comentarios