La percepción que se tiene del trabajo de un data scientist es que hace magia a través de un ordenador. También, que predice el futuro gracias a los datos. Lo cierto es que al pensar en nuestro trabajo siempre se pone el foco en la persona que hace el encargo, cuando este debería estar, en realidad, en los propios datos.
Un data scientist es un profesional cuya principal función es la de identificar patrones o extraer conocimiento de los datos usando algoritmos de análisis o mediante la construcción de modelos matemáticos. Una vez hecho esto, se encarga de interpretar los resultados para sacar conclusiones lógicas y predecir comportamientos futuros. En base a esta información, los stakeholders pueden tomar decisiones y elegir hacia dónde dirigen sus líneas de negocio.
Sin embargo, a veces se nos piden cosas imposibles. Se espera que los datos justifiquen unos objetivos ya determinados o dibujen una realidad que, aunque puede ser la ideal para el negocio, no siempre existe. Pero nosotros no podemos hacer magia con los datos, ni transformarlos para que den resultados a nuestro antojo.
Lo cierto es que en nuestro día a día nos enfrentamos a los datos sin prejuicios y tratándolos como lo que son: una fuente de información importante para tomar decisiones. Estos son los tres grandes principios que deben tenerse en cuenta para entender cómo trabajamos los data scientists:
Dejar que los datos hablen por sí mismos
En no pocas ocasiones, formamos en nuestra cabeza conclusiones sobre los patrones que se van a obtener. Muchas veces, lo hacemos incluso antes de haber empezado a trabajar con los propios datos. Lo cierto es que estos pueden mostrarnos realidades que desconocíamos y es por eso que tenemos que tener la mente abierta y nunca fiarnos de nuestra intuición.
Cuando los resultados contradicen lo que la lógica nos dicta, debemos preguntarnos si existe una explicación razonable. Otras preguntas interesantes que pueden surgir son: ¿cómo se han obtenido los datos? ¿Tiene sentido el algoritmo utilizado y es correcto el planteamiento que se ha hecho del problema?
Los data scientists nos enfrentamos a los datos sin prejuicios. Sin embargo, muchas veces tenemos que realizar una limpieza antes de empezar, ya que podemos encontrarnos con datos erróneos (debido a fallos en los sensores que los recogen, por ejemplo), maquillados (introducidos intencionadamente para favorecer determinados resultados) o sesgados (condicionados por la forma en que se obtuvieron).
Todos los modelos son incorrectos, pero algunos son útiles
Esta frase de George E. P. Box resalta el hecho de que no existe un modelo universal que dé sentido a todos los datos. En nuestro mundo, hay infinidad de modelos a aplicar. Parte fundamental de nuestro trabajo es identificar qué algoritmos encajan mejor en cada caso.
Un matiz importante a tener en cuenta es que cada modelo hace suposiciones sobre los datos que usamos. Cuando los datos (que son numéricos) no se adaptan a un determinado modelo, podemos transformarlos para que sí encajen. En otros casos, podemos elegir otro modelo que resulte menos restrictivo.
Aquí entra en juego nuestra experiencia y capacidad de probar soluciones nuevas. Aunque sepamos que un modelo puede funcionar, no debemos descartar otros posibles candidatos. De nuevo, es fundamental evitar los sesgos.
La calidad del dato, clave del éxito
La calidad de los datos determina en gran medida la calidad de los resultados de un proyecto. Cuando contamos con buenos datos, es posible realizar predicciones decentes incluso con modelos que no son totalmente compatibles con ellos. Sin embargo, cuando la calidad del dato es baja, hasta el modelo más sofisticado puede fallar en sus predicciones. Es como intentar construir una casa de madera con vigas llenas de termitas. La casa se va a caer. Por esto escuchamos que los datos son el petróleo del siglo XXI: Son las herramientas de las empresas para definir sus estrategias.
Lo ideal es contar con grandes volúmenes de información, aunque existen excepciones en las que se trabaja bien con cantidades pequeñas. También es recomendable que los datos tengan mucha riqueza y variedad, y se evite la información redundante y errónea.
Si se cumplen las 3 condiciones anteriores, los data scientists somos capaces de hacer nuestro trabajo, para que un stakeholder valiente con la cultura de tomar decisiones basadas en ese trabajo, haga cosas que parezcan magia.
En otras palabras: los modelos y patrones no valen nada sin los datos que los alimentan. Son las conclusiones que se pueden tomar de los datos las que tienen valor un verdadero valor estratégico. Por esta razón, os animo a que curéis lo máximo posible vuestros datos. Porque son una apuesta de futuro.
Todavía no hay comentarios