Los especialistas en Data Science se encargan, a través de la programación, de procesar, limpiar y accionar grandes volúmenes de datos. Traducen la inmensa cantidad de información que es recopilada por una empresa de sus usuarios en conclusiones para tomar decisiones. Es un perfil que se ha afianzado recientemente y que es de gran valor para las empresas. Se requieren conocimientos de lenguajes de programación como Python, R, Matlab o Java, además de bases de datos como SQL o MongoDB.
Exprimir toda la información que sea necesaria (y en ocasiones, decicir qué es importante y qué no) de los orígenes de datos disponibles. Según el volumen estaremos hablando de Small Data, Medium Data o Big Data.
Esta es una tarea clave para disponer de datos lo más útiles posible, eliminando datos no relevantes o de baja calidad. De esta manera, las siguientes fases del proceso serán más eficientes.
Para sacar conclusiones relevantes, es necesario analizar los datos previamente. Este procesamiento se hace, normalmente, con programas estadísticos, utilizando diversas herramientas como modelos predictivos, machine learning, etc.
Representar los datos gráficamente para hacerlos más comprensibles tanto para uno mismo como para otros equipos.
Para obtener conclusiones relevantes hay que hacer las preguntas correctas. Pero, ¿y si tus preguntas son correctas, pero los datos no? A veces, hay que lidiar con bases de datos que no han sido bien mantenidas y eso obliga a afilar la atención por el detalle.
Conforme aumenta la popularidad del data science, los profesionales deben mantener unas expectativas realistas sobre lo que se puede y lo que no se puede hacer con datos.
El especialista en ciencia de datos va más allá del mero Business Intelligence. Incluye también el diseño de procesos de consulta, crear algoritmos y ejecución de modelos predictivos.
Es complicado establecer una rutina diaria, pero en lo general estas son los procedimientos habituales. Independientemente del puesto, se suele comenzar con una reunión del equipo de data (stand-up meeting, según la metodología Agile). En ella se discute el avance de los proyectos y se decide cómo superar las dificultades.
Se continúa trabajando en el proyecto actual, ya sea extrayendo, limpiando o reorganizando datos para el modelo en el que estemos trabajando. En algunos casos, es necesario hacer peer-programming junto a otra persona del equipo para avanzar juntos en un proyecto común. Según el proyecto, se puede invertir tiempo para analizar resultados o para dar feedback en un modelo en el que haya trabajado otro equipo.
Además, hay que reservar tiempo para la búsqueda de patrones y tendencias, así como para crear algunas visualizaciones y compartir conclusiones con otros departamentos.
No cabe duda de que las empresas buscan continuamente profesionales de la ciencia de datos. Sobre todo desde el boom de áreas como aprendizaje automático e inteligencia artificial. Según reclutadores especializados, un data scientist que conozca Python y R puede llegar a ganar de 23.000€ a 25.000€ anuales en sus primeras posiciones, hasta llegar a los 59.000€ cuando con varios años de experiencia y aprendiendo otros lenguajes.
Según la Unión Europea, las profesiones relacionadas con la programación han aguantado (mucho mejor que otros perfiles) pasadas crisis y se espera que así siga siendo. De hecho, la demanda de estos profesionales no deja de subir, hasta el punto que el 58% de las empresas europeas tuvieron problemas para encontrar programadores.
Los profesionales de la data science utilizan programación en todas las funciones del trabajo. Comenzando por la recolección de datos, pasando por su automatización y la organización. Además, se requiere también para la limpieza de datos en bruto y para la elaboración de bases de datos y algoritmos.