Activités principales :
Un data scientist est un expert en science des données. Son métier consiste à collecter et
exploiter les données disponibles sur Internet (big data) pour créer des solutions de gestion
pour l'entreprise.
Il peut en tirer des conclusions qui guident sa réponse aux problèmes de
l'entreprise. Le profil Data Scientist est complexe et nécessite des compétences
informatiques pointues.
Ceux-ci vous permettent de modéliser de grandes quantités de
données. Le menu comprend les mathématiques/statistiques, l'apprentissage automatique,
la passion pour les données, le travail avec les mégadonnées, la curiosité, les compétences
en communication, l'intuition et le respect de la confidentialité.
Compétences requises :
-
- Algèbre : une bonne connaissance du calcul matriciel et de la géométrie de diffusion
est requise.
-
- Statistiques : une solide connaissance des statistiques est essentielle, y compris des
sujets tels que la régression linéaire, la régression multivariée et les corrélations
entre les variables.
-
- Programmation de niveau avancé : Pour exercer le métier de scientifique des
données, vous devez maîtriser les concepts théoriques de la programmation orientée
objet structurée et les concepts connexes de la complexité computationnelle.
-
- Conception et utilisation de bases de données relationnelles : le profil du candidat
Data Scientist doit être capable de résoudre des problèmes de conception
(indexation de base de données, normalisation ou conception physique) jusqu'à la
configuration et l'optimisation des requêtes SQL. Une connaissance de la conception
et de l'utilisation de bases de données NoSQL et NewSQL est également requise.
-
- Connaissance des systèmes distribués (informatique distribuée et à haute
performance, HPC) couvrant les concepts liés à l'informatique distribuée et aux
modèles et problèmes de stockage de données distribués.
-
- Apprentissage automatique : cette spécialisation de data scientist comprend des
algorithmes supervisés (arbres de décision, réseaux de neurones, méthodes
probabilistes, SVM, etc.) et des algorithmes non supervisés pour les problèmes de
classification, de régression ou de clustering (clustering hiérarchique ou k-means).
-
- Comprendre les différentes typologies et cycles de vie des données : Une
compétence très importante pour pouvoir aborder les problématiques requises pour
ce métier. Cela comprend les compétences liées à la collecte de données (IoT, web
sémantique, données ouvertes et liées, etc.) caractérisées par des métadonnées ou
des processus d'extraction, de transformation et de chargement (ETL, extraction,
transformation et chargement).
-
- Maîtrisez les techniques et les outils de visualisation des données pour présenter les
résultats de manière claire et concise. Les outils les plus pertinents sont les outils de
modélisation Tableau, D3.js ou Processing. L'expertise dans ces domaines techniques
est une partie importante du processus d'analyse des données. Cette connaissance
vous permet de comprendre vos données en profondeur et de poser les bonnes
questions pertinentes. Gestion de projet : comme pour tout projet, les data scientists
sont souvent responsables de la gestion de projet et doivent être autonomes.
-
- Confidentialité : les scientifiques des données doivent avoir les compétences
éthiques et sensibles nécessaires pour gérer correctement les données avec
lesquelles ils travaillent pendant l'exécution d'un projet.
Salaire :
Le salaire du data scientist, s'établit à partir de 50 K€ à 60 K€.