Un Científico de datos, un “Big Data Scientist” es un nuevo perfil profesional que ayuda a analizar la información recogida en empresas de todo tipo. Parce que es una especialización de estadística, sin embargo un Big Data Scientist es un profesional que tiene muy buen conocimiento de matemáticas, además de muchas habilidades para programar y obtener información de bases de datos.
En el ámbito de la inteligencia artificial y el aprendizaje automático, con ordenadores que aprenden solos a medida que se usan, la importancia del Científico de Datos aumenta. Los sensores no paran de recoger información de forma automática, y las acciones que se toman a partir de esos datos deben ser extremadamente bien calculadas, además en internet se recoge una enorme cantidad de información a diario, y esos datos deben ser analizados para poder obtener conclusiones sobre diversos temas. Desde las estadísticas incluidas en los informes de Google Analytics hasta las que se pueden obtener a partir de formularios de entrada de datos en tiendas online, la información que tenemos que gestionar es cada vez mayor, y los productos que se deben ofrecer tienen que tener en cuenta esos datos.
Entendiendo así que estamos hablando de una ciencia extremadamente relacionada con las matemáticas, es obvio que hay que tener buenos conocimientos sobre estadística, pero también es importante apostar por lenguajes de programación y consultas en bases de datos.
El currículo de un gran Big Data Scientist ha de contener los siguientes elementos:
- Inteligencia artificial: clasificación, regresión, clustering…
- Métodos estadísticos: series de tiempo, modelos de regresión, intervalos de confianza y pruebas de hipótesis, análisis de componentes principales y la reducción de dimensionalidad, ecuaciones diferenciales estocásticas (SDES)
- Software y lenguajes de programación: Python (scikit-learn, numpy, scipy, pandas, gensim), R, SQL, Hadoop (Colmena, MapReduce), Linux, Oracle, Microsoft Excel, LaTeX
- Otros: Procesos estocásticos, estocástico de simulación, Random Matrix Theory, álgebra lineal, probabilidad y estadística.
Existen escuelas especializadas en programación, y allí podemos encontrar cursos intensivos sobre muchas de las áreas que se necesitan en este sector (Python, SQL, Java, etc.). En Internet también se ofrecen con frecuencia cursos en formato MOOC con la Ciencia de Datos como protagonista.
Desde la propuesta de skylabcoders.com en Barcelona, especializados en Javascript y diseño de informes con DS3, a los cursos online especializados en Coursera, existen varias alternativas que pueden ayudarnos a completar nuestro currículo para transformarnos en un científico de datos.
La pregunta del salario es inevitable, y aunque la media es de 55.000 euros al año en Europa occidental, la cantidad depende mucho del empleador y del tipo de relación que se tiene con la empresa (freelance, empleado, etc.).
En kdnuggets.com disponeis de un informe actualizado con algunas estadísticas en este sentido.