Cuando la calidad del dato es lo que importa: así es el día a día de un data scientist

Guillermo Gómez Bella
Varios autores

06 de julio de 2021

La percepción que se tiene del trabajo de un data scientist es que hace magia a través de un ordenador. También, que predice el futuro gracias a los datos. Lo cierto es que al pensar en nuestro trabajo siempre se pone el foco en la persona que hace el encargo, cuando este debería estar, en realidad, en los propios datos.

Un data scientist es un profesional cuya principal función es la de identificar patrones o extraer conocimiento de los datos usando algoritmos de análisis o mediante la construcción de modelos matemáticos. Una vez hecho esto, se encarga de interpretar los resultados para sacar conclusiones lógicas y predecir comportamientos futuros. En base a esta información, los stakeholders pueden tomar decisiones y elegir hacia dónde dirigen sus líneas de negocio.

Sin embargo, a veces se nos piden cosas imposibles. Se espera que los datos justifiquen unos objetivos ya determinados o dibujen una realidad que, aunque puede ser la ideal para el negocio, no siempre existe. Pero nosotros no podemos hacer magia con los datos, ni transformarlos para que den resultados a nuestro antojo.

Lo cierto es que en nuestro día a día nos enfrentamos a los datos sin prejuicios y tratándolos como lo que son: una fuente de información importante para tomar decisiones. Estos son los tres grandes principios que deben tenerse en cuenta para entender cómo trabajamos los data scientists:

Dejar que los datos hablen por sí mismos

En no pocas ocasiones, formamos en nuestra cabeza conclusiones sobre los patrones que se van a obtener. Muchas veces, lo hacemos incluso antes de haber empezado a trabajar con los propios datos. Lo cierto es que estos pueden mostrarnos realidades que desconocíamos y es por eso que tenemos que tener la mente abierta y nunca fiarnos de nuestra intuición.

Cuando los resultados contradicen lo que la lógica nos dicta, debemos preguntarnos si existe una explicación razonable. Otras preguntas interesantes que pueden surgir son: ¿cómo se han obtenido los datos? ¿Tiene sentido el algoritmo utilizado y es correcto el planteamiento que se ha hecho del problema?

Los data scientists nos enfrentamos a los datos sin prejuicios. Sin embargo, muchas veces tenemos que realizar una limpieza antes de empezar, ya que podemos encontrarnos con datos erróneos (debido a fallos en los sensores que los recogen, por ejemplo), maquillados (introducidos intencionadamente para favorecer determinados resultados) o sesgados (condicionados por la forma en que se obtuvieron).

Todos los modelos son incorrectos, pero algunos son útiles

Esta frase de George E. P. Box resalta el hecho de que no existe un modelo universal que dé sentido a todos los datos. En nuestro mundo, hay infinidad de modelos a aplicar. Parte fundamental de nuestro trabajo es identificar qué algoritmos encajan mejor en cada caso.

Un matiz importante a tener en cuenta es que cada modelo hace suposiciones sobre los datos que usamos. Cuando los datos (que son numéricos) no se adaptan a un determinado modelo, podemos transformarlos para que sí encajen. En otros casos, podemos elegir otro modelo que resulte menos restrictivo.

Aquí entra en juego nuestra experiencia y capacidad de probar soluciones nuevas. Aunque sepamos que un modelo puede funcionar, no debemos descartar otros posibles candidatos. De nuevo, es fundamental evitar los sesgos.

La calidad del dato, clave del éxito

La calidad de los datos determina en gran medida la calidad de los resultados de un proyecto. Cuando contamos con buenos datos, es posible realizar predicciones decentes incluso con modelos que no son totalmente compatibles con ellos. Sin embargo, cuando la calidad del dato es baja, hasta el modelo más sofisticado puede fallar en sus predicciones. Es como intentar construir una casa de madera con vigas llenas de termitas. La casa se va a caer. Por esto escuchamos que los datos son el petróleo del siglo XXI: Son las herramientas de las empresas para definir sus estrategias.

Lo ideal es contar con grandes volúmenes de información, aunque existen excepciones en las que se trabaja bien con cantidades pequeñas. También es recomendable que los datos tengan mucha riqueza y variedad, y se evite la información redundante y errónea.

Si se cumplen las 3 condiciones anteriores, los data scientists somos capaces de hacer nuestro trabajo, para que un stakeholder valiente con la cultura de tomar decisiones basadas en ese trabajo, haga cosas que parezcan magia.

En otras palabras: los modelos y patrones no valen nada sin los datos que los alimentan. Son las conclusiones que se pueden tomar de los datos las que tienen valor un verdadero valor estratégico. Por esta razón, os animo a que curéis lo máximo posible vuestros datos. Porque son una apuesta de futuro.

Big data Corporativo Estrategia empresarial

Todavía no hay comentarios

Suscríbete a nuestra newsletter y recibirás solo buenas noticias

Campo obligatorio

Formato de correo incorrecto. Ej: ejemplo@mail.com

Condiciones legales

No olvides leer esto!

Este sitio esta protegido por reCAPTCHA y se aplican la Política de privacidad y las Condiciones de servicio de Google.

Consiento el envío de newsletters conforme a lo señalado en la Política de privacidad y Aviso legal.

Campo obligatorio

Autorizo el tratamiento de mis datos con el fin de permitir mi registro como usuario. Este registro me permite guardar mis lecturas y continuar en otro momento; publicar comentarios, junto con los datos que pueda aportar para ello; y recibir notificaciones sobre nuevos posts, según las categorías previamente seleccionadas para ello y nuevos comentarios sobre los posts previamente comentados, de acuerdo con la Política de Privacidad Política de privacidad.

Campo obligatorio

Te puede interesar...

Descárgate nuestra App

La aplicación de Ferrovial proporciona acceso inmediato a toda la actualidad de la compañía: contenidos informativos, ofertas de trabajo y la información básica para el inversor.

Conecta con Ferrovial

Cualquier momento es bueno para contarnos tus dudas, comentarios, sugerencias, o lo que quieras.

Contacto

Cookie	Duración	Descripción
cookielawinfo-checkbox-advertisement	11 meses 29 días 23 horas 59 minutos	Esta cookie es establecida por el plugin GDPR Cookie Consentimiento y se utiliza para registrar el consentimiento del usuario para las cookies publicitarias.
cookielawinfo-checkbox-analytics	11 meses 29 días 23 horas 59 minutos	Esta cookie es establecida por el plugin de Wordpress GDPR Cookie Consentimiento. La cookie es utilizada para recodar el consentimiento del usuario respecto de las cookies catalogadas como “analíticas”
cookielawinfo-checkbox-language	11 meses 29 días 23 horas 59 minutos	This cookies is set by GDPR Cookie Consent WordPress Plugin. The cookies will remember language preferences.Esta cookie es establecida por el plugin de Wordpress GDPR Cookie Consentimiento. La cookie recordará las preferencias de idioma.
cookielawinfo-checkbox-necessary	11 meses	Esta cookie es establecida por el plugin DE Consentimiento de Cookies del RGPD. Las cookies se utilizan para almacenar el consentimiento del usuario para las cookies en la categoría "Necesario".
cookielawinfo-checkbox-non-necessary	11 meses	Esta cookie es establecida por el plugin DE Consentimiento de Cookies del RGPD. Las cookies se utilizan para almacenar el consentimiento del usuario para las cookies en la categoría "No necesario".
csrftoken	11 meses	Esta cookie está asociada con la plataforma de desarrollo web Django para Python. Se utiliza para ayudar a proteger el sitio web contra ataques de falsificación de solicitudes entre sitios.
lang		Esta cookie se utiliza para almacenar las preferencias de idioma de un usuario para servir contenido en ese idioma almacenado la próxima vez que el usuario visite el sitio web.
PHPSESSID		Esta cookie es nativa de las aplicaciones PHP. La cookie se utiliza para almacenar e identificar el ID de sesión único de un usuario con el fin de administrar la sesión de usuario en el sitio web. La cookie es una cookie de sesión y se elimina cuando se cierran todas las ventanas del navegador.
viewed_cookie_policy	11 meses	La cookie es establecida por el plugin GDPR Cookie Consent y se utiliza para almacenar si el usuario ha dado su consentimiento o no al uso de cookies. No almacena ningún dato personal.
wp-wpml_current_language	1 día

Cookie	Duración	Descripción
_csrf		Cookie anti "Cross-site request forgery".
_ga	2 años	Esta cookie es instalada por Google Analytics. La cookie se utiliza para calcular los datos de visitantes, sesiones, camapign y realizar un seguimiento del uso del sitio para el informe de análisis del sitio. Las cookies almacenan información de forma anónima y asignan un número generado por randoly para identificar visitantes únicos.
_gat	1 minuto	Estas cookies son instaladas por Google Universal Analytics para limitar la tasa de solicitudes para limitar la colocación de datos en sitios de alto tráfico.
_gat_gtag_UA_5784146_31	1 minuto	Google Se utiliza para distinguir a los usuarios.
_gat_UA-141180000-1	1 minuto	Se trata de una cookie de tipo de patrón establecida por Google Analytics, donde el elemento de patrón en el nombre contiene el número de identidad único de la cuenta o sitio web con el que se relaciona. Parece ser una variación de la _gat cookie que se utiliza para limitar la cantidad de datos registrados por Google en sitios web de alto volumen de tráfico.
_gat_UA-20934186-10	1 minuto	Se trata de una cookie de tipo de patrón establecida por Google Analytics, donde el elemento de patrón en el nombre contiene el número de identidad único de la cuenta o sitio web con el que se relaciona. Parece ser una variación de la _gat cookie que se utiliza para limitar la cantidad de datos registrados por Google en sitios web de alto volumen de tráfico.
_gat_UA-5826449-38		Utilizado por Google Analytics para controlar la tasa de peticiones
_gat_UA-58630905-1	1 minute	Utilizado por Google Analytics para controlar la tasa de peticiones
_gat_UA-70491628-1	1 minuto	Se trata de una cookie de tipo de patrón establecida por Google Analytics, donde el elemento de patrón en el nombre contiene el número de identidad único de la cuenta o sitio web con el que se relaciona. Parece ser una variación de la _gat cookie que se utiliza para limitar la cantidad de datos registrados por Google en sitios web de alto volumen de tráfico.
_gcl_au	2 months	Utilizada por Google AdSense para experimentar con la eficiencia publicitaria a través de las webs usando sus servicios
_gid	1 día	Esta cookie es instalada por Google Analytics. La cookie se utiliza para almacenar información de cómo los visitantes utilizan un sitio web y ayuda a crear un informe analítico de cómo está wbsite. Los datos recopilados, incluido el número de visitantes, la fuente de donde provienen y las páginas viisted en forma anónima.
_hjAbsoluteSessionInProgress	30 minutos	Esta cookie se utiliza para detectar la primera sesión de vista de página de un usuario. Este es un indicador de Verdadero / Falso establecido por la cookie.
_hjCachedUserAttributes	Sesión	Esta cookie almacena atributos de usuario que se envían a través de la API de identificación de Hotjar, siempre que el usuario no está en la muestra. Estos atributos solo se guardarán si el usuario interactúa con una herramienta Hotjar Feedback.
_hjClosedSurveyInvites	365 días	Cookie de Hotjar que se establece una vez que un visitante interactúa con un modal de invitación de Encuesta de enlace externo. Se utiliza para garantizar que la misma invitación no vuelva a aparecer si ya se ha mostrado.
_hjDonePolls	365 días	Cookie Hotjar que se establece una vez que un visitante completa una encuesta utilizando el widget de encuesta en el sitio. Se utiliza para garantizar que la misma encuesta no vuelva a aparecer si ya se ha rellenado.
_hjid	365 días	Cookie Hotjar que se establece cuando el cliente llega por primera vez a una página con el script Hotjar. Se utiliza para conservar la ID de usuario de Hotjar, única para ese sitio en el navegador. Esto asegura que el comportamiento en visitas posteriores al mismo sitio se atribuirá al mismo ID de usuario.
_hjIncludedInPageviewSample	30 minutos	Esta cookie está configurada para que Hotjar sepa si ese visitante está incluido en el muestreo de datos definido por el límite de visitas a la página de su sitio.
_hjIncludedInSessionSample	30 minutos	Esta cookie está configurada para que Hotjar sepa si ese visitante está incluido en el muestreo de datos definido por el límite de sesiones diarias de su sitio.
_hjLocalStorageTest	Menos de 100ms	Esta cookie se usa para verificar si Hotjar Tracking Script puede usar almacenamiento local. Si puede, se establece un valor de 1 en esta cookie. Los datos almacenados en_hjLocalStorageTest no tienen fecha de caducidad, pero se eliminan casi inmediatamente después de su creación.
_hjMinimizedPolls	365 días	Hotjar cookie that is set once a visitor minimizes an On-site Survey widget. It is used to ensure that the widget stays minimized when the visitor navigates through your site.
_hjRecordingLastActivity	Sesión	Esto se debe encontrar en el almacenamiento de sesiones (a diferencia de las cookies). Esto se actualiza cuando comienza la grabación de un visitante y cuando se envían datos a través de WebSocket (el visitante realiza una acción que Hotjar registra).
_hjShownFeedbackMessage	365 días	Cookie Hotjar que se establece cuando un visitante minimiza o completa los comentarios entrantes. Esto se hace para que los comentarios entrantes se carguen como minimizados inmediatamente si el visitante navega a otra página donde está configurado para mostrarse.
_hjTLDTest	Sesión	Cuando se ejecuta el script Hotjar, intentamos determinar la ruta de la cookie más genérica que debemos usar, en lugar del nombre de host de la página. Esto se hace para que las cookies se puedan compartir entre subdominios (cuando corresponda). Para determinar esto, intentamos almacenar la cookie _hjTLDTest para diferentes alternativas de subcadena de URL hasta que falle. Después de esta verificación, se elimina la cookie.
_hjUserAttributesHash	Sesión	Los atributos de usuario enviados a través de la API de identificación de Hotjar se almacenan en caché durante la sesión para saber cuándo un atributo ha cambiado y debe actualizarse.
_smvs	23 horas 59 minutos
_uetsid	1 día	Esta es una cookie que utiliza Microsoft Bing Ads y se trata de una cookie de rastreo. Permite interactuar con un usuario que ya ha visitado nuestro sitio web.
_uetvid	2 semanas	Cookie instalada por Google Tag Manager para almacenar y rastrear las visitas entre sitios.
apbct_visible_fields
apbct_visible_fields_count
ct_checkjs
ct_fkp_timestamp
ct_pointer_data
ct_ps_timestamp
ct_timezone
dtCookie	Sesión
GPS	30 minutos	This cookie is set by Youtube and registers a unique ID for tracking users based on their geographical location.
lumesse_language	hace 50 años	Esta cookie determina el idioma de la interfaz de usuario del Application Process (etiquetas, interfaz, etc.)
MR	1 semana	Esta cookie se utiliza para medir el uso del sitio web con fines analíticos.
Smclient	10 years	A cookie itself does not contain any information that enables to identify contacts and to recognize e.g. personal data of the website visitor. Connection to the contact card takes place in the SALESmanago system.
SMCNTCTGS	10 years	A cookie contains tags assigned to hashed email in json {„hashedEmail”:”tag1,tag2″}
Smevent	12 hours	A cookie contains eventId assigned after the event cart, deleted when the event purchase takes place.
smform	12 months	Information about a form and pop-up behavior- a number of visits, a timestamp of the last visit, information about closing/minimizing pop-ups
smg	12 months	Random ID in UUID format
SMOPTST	10 years	A cookie contains contact status which is assigned to the hashed email in json {„hashedEmail”:”true”, „hashedEmail”:”false”}
smOViewsPopCap	10 years	SM:X\|, where X is replaced with a number
smrcrsaved	12 months	True/false value
Smuuid	12 months	Unique ID – cookie itself does not contain any information that enables to identify contacts and to recognize e.g. personal data of the website visitor. Connection to the contact card takes place in the SALESmanago system.
smvr	10 years	Values coded by base64
smwp	12 months	True/false value
test_cookie	14 minutos	Esta cookie es instalada por doubleclick.net. La finalidad de la cookie es determinar si el navegador del usuario admite cookies.

Cookie	Duración	Descripción
_fbp	2 meses 28 días 23 horas 59 minutos	Esta cookie es instalada por Facebook para ofrecer publicidad cuando están en Facebook o en una plataforma digital con publicidad de Facebook después de visitar este sitio web.
everest_g_v2	1 año	La cookie se establece en eversttech.net dominio. El propósito de la cookie es asignar clics a otros eventos en el sitio web del cliente.
fr	2 meses 28 días 23 horas 59 minutos	La cookie es instalada por Facebook para mostrar anuncios relevantes a los usuarios y medir y mejorar los anuncios. La cookie también rastrea el comportamiento del usuario a través de la web en los sitios que tienen el píxel de Facebook o el plugin social de Facebook.
IDE	2 años	Utilizado por Google DoubleClick y almacena información sobre cómo el usuario utiliza el sitio web y cualquier otro anuncio antes de visitar el sitio web. Esto se utiliza para presentar a los usuarios anuncios que son relevantes para ellos de acuerdo con el perfil de usuario.
lms_ads	30 días	Se utiliza para identificar a los miembros de LinkedIn de los países designados para fines de publicidad.
mid	9 años	La cookie es establecida por Instagram. La cookie se utiliza para distinguir a los usuarios y para mostrar contenido relevante, para una mejor experiencia de usuario y seguridad.
MUID	1 año	Utilizado por Microsoft como un identificador único. La cookie se establece mediante scripts de Microsoft incrustados. El propósito de esta cookie es sincronizar el identificador en muchos dominios de Microsoft diferentes para permitir el seguimiento de usuarios.
NID	6 meses	Esta cookie se utiliza para un perfil basado en el interés del usuario y mostrar anuncios personalizados a los usuarios.
personalization_id	2 años	Esta cookie es establecida por twitter.com. Se utiliza integrar las características de uso compartido de esta red social. También almacena información sobre cómo el usuario utiliza el sitio web para el seguimiento y la segmentación.
uid	1 año	Esta cookie se utiliza para medir el número y el comportamiento de los visitantes del sitio web de forma anónima. Los datos incluyen el número de visitas, la duración media de la visita en el sitio web, las páginas visitadas, etc. con el fin de comprender mejor las preferencias de los usuarios para los anuncios dirigidos.
VISITOR_INFO1_LIVE	5 meses	Esta cookie está establecida por Youtube. Se utiliza para realizar un seguimiento de la información de los vídeos de YouTube incrustados en un sitio web.
YSC	Sesión	Esta cookie es establecida por Youtube y se utiliza para rastrear las vistas de los vídeos incrustados.