¿Qué es un Data Scientist?

 En Big Data

Hoy en día, vivimos en un mundo conectado y basado en datos. Tanto es así, que tú mismo, a lo largo del día, tomas decisiones que se fundamentan en hechos pasados. Por ejemplo, si al levantarte consultas el móvil para informarte sobre el tiempo que va a hacer ese día, la propia aplicación transforma datos del clima pasados en una predicción efectiva. Más tarde, antes de ir al trabajo, si te desplazas bien por transporte público, bien por transporte privado, puede que consultes otra aplicación en el móvil que prevea lo que tardarás en llegar al trabajo. A lo largo del día, seguro que utilizas otras aplicaciones que utilizan datos para tu beneficio, como fintonic, Wallapop, las redes sociales…

El Data Scientist como protagonista del mundo del dato

Un Data Scientist (Científico de Datos) es capaz de transformar datos en “crudo” en información útil para tomar decisiones a nivel estratégico y resolver problemas.

Las fases que sigue un científico de datos suelen ser siempre las mismas y están bien definidas:

  1. Extracción de datos. Normalmente, los datos provienen de diversas fuentes y en cantidad muy variable. En esta fase, el científico de datos “exprime” las fuentes disponibles e intenta obtener la mayor cantidad de información de ellas.
  2. Limpieza de datos. Esta fase supone eliminar el ruido que se encuentra en la información, además de prepararla para su procesamiento (por ejemplo, transformando variables categóricas en numéricas, normalizando valores…).
  3. Procesamiento de datos. Este punto es el clave y supone el éxito o el fracaso del flujo. En él, el Data Scientist utiliza todas sus “armas” para extraer conclusiones de la información. Sus armas son modelos y relaciones estadísticas, análisis matemáticos, modelos predictivos o de clustering… El objetivo es poder interpretar los datos de la forma más adecuada, utilizándolos para dar previsiones futuras o buscando la relación entre las distintas variables.
  4. Visualización de resultados. Un Data Scientist debe ser bueno analizando, pero también exponiendo los resultados de su análisis para que otros menos conocedores de los aspectos técnicos puedan comprenderlos. Supone una representación gráfica de los resultados.

El Data Science se fundamenta, sobre todo, en pilar de la matemática y de la estadística (hermana menor de la primera). Todos los desarrollos metodológicos de esta ciencia han sido demostrados y basados en algoritmos matemáticos muy complejos, que prueban su utilidad. Por este motivo, un Data Scientist debe ser buen estadístico. Los datos de por sí no hablan solos, por lo que es necesaria la elaboración de modelos y análisis estadísticos para extraer la información que buscamos.

Además, todo Data Scientist debe ser habilidoso en el uso de los lenguajes de programación tales como Python, R, Java, Julia… De nada sirve dominar la dimensión matemática/estadística sin poder implementar los algoritmos que se alojan dentro de su cabeza.

Finalmente, un científico de datos debe conocer el entorno de negocio en el que esté trabajando y debe ser capaz de traducir los resultados en decisiones de negocio. Por ejemplo, si somos los responsables de una empresa energética y queremos invertir en terrenos sobre los que construir plantas de energía solar en Castilla-La Mancha y disponemos de información climatológica que nos indica que en ciertas zonas suele haber poco sol ya que suele nublarse con mucha regularidad, una decisión de negocio derivada de este análisis puede ser el descarte de estas zonas y, definitivamente, no invertir en ellas.

No sólo con el análisis resolvemos un problema dado; es necesaria una fase de interpretación de resultados.

Por tanto, un Data Scientist debe extraer, limpiar y procesar (analizar) la información para visualizar los resultados y transformarla en decisiones útiles para el negocio.

Además, dado que esta ciencia está presente en todos los entornos del mundo, cualquier persona con capacidad de análisis y de interpretación es válida para trabajar como Data Scientist.

Fuentes públicas y privadas a nivel mundial coinciden en que la demanda de profesionales tales como Data Scientist o Data Engineer (Ingeniero de Datos) no serán cubiertas ni al 70% de aquí a 5 años por los profesionales existentes, convirtiéndolas en unas de las profesiones con mayor proyección de futuro.

En mi trayectoria profesional me he topado con científicos de datos provenientes de muchas ramas: química, biología, telecomunicaciones, física, periodismo, marketing, filología… Todos ellos totalmente aptos y profesionales. Por tanto, no hay restricciones en cuanto a la formación que tengas si realmente quieres ejercer como científico de datos.

De hecho, si lo que he contado en este artículo te llama la atención y quieres adentrarte en el apasionante mundo de la ciencia de los datos, estaré encantado de charlar contigo y ayudarte en todo lo posible.

Mientras tanto, prepárate para el siguiente artículo, pues voy a ejemplificar las 4 fases anteriormente explicadas para que termines de comprender realmente en qué consiste esta profesión y terminar de convencerte.

Autor: Carlos Vázquez, Data Scientist | AI Engineer en Avansis

Presiona ENTER para comenzar la búsqueda en Avansis