Je travaille dans une startup de data scientist et j’ai trouvé un seul conseil que je me surprends à donner encore et encore. Et ce n’est vraiment pas ce à quoi je me serais attendu. 

 

Plutôt que de suggérer une nouvelle bibliothèque ou un nouvel outil, ou une partie du CV, je leur recommande de commencer par réfléchir au type de data scientist qu’ils veulent être.

La raison en est que la data scientist n’est pas un domaine unique et bien défini, et que les entreprises n’engagent pas de «scientifiques de la connaissance» génériques, mais plutôt des individus dotés de compétences très spécialisées.

Pour voir pourquoi, imaginez que vous êtes une entreprise qui tente d’embaucher un informaticien. Vous avez presque certainement un problème assez bien défini, et ce problème nécessitera un savoir-faire technique assez spécifique et une expertise en la matière. Par exemple, certaines entreprises appliquent des modèles simples à de grands ensembles de données, certaines appliquent des modèles complexes à des petits, certaines doivent former leurs modèles à la volée et d’autres n’utilisent pas de modèles conventionnels.

Chacune de ces compétences requiert des compétences complètement différentes, il est donc particulièrement étrange que les conseils donnés aux scientifiques en herbe soient aussi génériques : « apprenez à utiliser Python, construisez des projets de classification / régression / clustering et commencez à postuler à des emplois. « 

Ceux d’entre nous qui travaillent dans l’industrie en portent une grande part. Nous avons tendance à mettre un nombre excessif de choses dans le seau de « science des données » lors de conversations informelles, de blogs et de présentations. Construire un pipeline de données robuste pour la production ? C’est un « problème de science des données ». Inventer un nouveau type de réseau de neurones ? C’est un « problème de science des données ».

Ce n’est pas bon, car cela a tendance à amener les scientifiques en devenir à se focaliser sur des catégories de problèmes spécifiques et à devenir au contraire des foutaises de tous les métiers, ce qui peut rendre plus difficile la visibilité ou la percée sur un marché déjà saturé de généralistes.

Mais il est difficile d’éviter de devenir un généraliste si vous ne savez pas dans quelle classe de problèmes courants vous pourriez vous spécialiser à la première place. C’est la raison pour laquelle j’ai dressé une liste des cinq classes de problèmes qui sont souvent regroupées dans la rubrique « Data Science ».

1. Ingénieur Data

Description du poste : Vous allez gérer des pipelines de données pour les entreprises qui traitent de gros volumes de données. Cela signifie que vous devez vous assurer que vos données sont efficacement collectées et extraites de leur source lorsque cela est nécessaire, nettoyées et prétraitées.

Pourquoi est-ce important ? Si vous avez déjà travaillé avec des jeux de données relativement petits (<5 Go) stockés dans des fichiers .csv ou .txt, il pourrait être difficile de comprendre pourquoi il existe des personnes dont les emplois à temps plein sont créés. Voici quelques raisons :

1) Un jeu de données de 50 Go ne rentre pas dans la mémoire vive de votre ordinateur ; vous       avez donc généralement besoin d’autres moyens pour l’insérer dans votre modèle.

2) Beaucoup de données peuvent prendre un temps ridicule à traiter et doit souvent être stocké de manière redondante. La gestion de ce stockage nécessite un savoir-faire technique spécialisé.

Conditions requises : Les technologies avec lesquelles vous travaillerez incluent Apache Spark, Hadoop et / ou Hive, ainsi que Kafka. Vous aurez probablement besoin d’une base solide en SQL.

Les questions que vous allez traiter ressemblent à :

-> « Comment créer un pipeline capable de traiter 10 000 requêtes par minute ? »

-> « Comment puis-je nettoyer cet ensemble de données sans tout charger dans la RAM? »

2. Data analyst

Description du poste : Votre travail consistera à traduire les données en informations commerciales exploitables. Vous serez souvent l’intermédiaire des équipes techniques et des équipes de stratégie commerciale, de vente ou de marketing. La visualisation des données constituera une partie importante de votre quotidien.

Pourquoi est-ce important ? Les spécialistes techniques ont souvent du mal à comprendre pourquoi les analystes de données sont si importants, mais ils le sont vraiment. Quelqu’un a besoin de convertir un modèle et des montages de données utilisateur formés et testés en un format compréhensible pour que les stratégies commerciales puissent être conçus autour d’eux. Les analystes de données veillent à ce que les équipes de data science ne perdent pas leur temps à résoudre des problèmes qui ne génèrent pas de valeur pour l’entreprise.

Conditions requises : Les technologies avec lesquelles vous allez travailler incluent Python, SQL, et Excel. Vous devrez également être un bon communicateur.

Les questions que vous allez traiter ressemblent à :

-> « Qu’est-ce qui motive notre croissance du nombre d’utilisateurs ? »

-> « Comment pouvons-nous expliquer à la direction que la récente augmentation des frais d’utilisation a fait fuir les gens ? »

3. Data Scientist

Description du poste : votre travail consistera à nettoyer et à explorer des jeux de données et à faire des prédictions offrant une valeur commerciale. Votre quotidien impliquera la formation et l’optimisation des modèles, et souvent leur déploiement en production.

Pourquoi est-ce important ? Lorsque vous avez une pile de données trop volumineuse pour être analysée par un humain et trop précieuse pour être ignorée, vous avez besoin d’un moyen d’en extraire des informations compréhensibles. C’est le travail de base d’un data scientist: convertir des ensembles de données en conclusions compréhensibles.

Conditions requises : Les technologies avec lesquelles vous allez travailler incluent Python, Scikit-learn, Pandas, SQL et éventuellement Flask, Spark et/ou TensorFlow / PyTorch. Certains postes liés à la data scientist sont purement techniques, mais la majorité d’entre eux vous demanderont de faire preuve de sens des affaires afin de ne pas résoudre des problèmes que personne n’a.

Les questions que vous allez traiter ressemblent à :

-> « Combien de types d’utilisateurs différents avons-nous réellement ? »

-> »Pouvons-nous construire un modèle pour prédire quels produits seront vendus à quels utilisateurs ? »

4. Ingénieur en machine learning

Description du poste : Votre travail consistera à créer, optimiser et déployer des modèles de’machine learning en production. En général, vous traiterez les modèles d’apprentissage machine comme des API ou des composants que vous pourrez brancher sur une application ou un matériel à pile complète, mais vous pourrez également être appelé à concevoir des modèles vous-même.

Conditions requises : Les technologies avec lesquelles vous travaillerez incluent Python, Javascript, scikit-learn, TensorFlow / PyTorch (et / ou les frameworks d’apprentissage approfondi d’entreprise) et SQL ou MongoDB (généralement utilisé pour les bases de données d’application).

Les questions que vous allez traiter ressemblent à :

-> « Comment puis-je intégrer ce modèle Keras dans notre application Javascript ? »

-> « Comment puis-je réduire le temps et le coût de prédiction de notre système de recommandation ? »

5. Chercheur en machine learning

Description du poste : Votre travail consistera à trouver de nouveaux moyens de résoudre des problèmes complexes en data scientist et en apprentissage en profondeur. Vous ne travaillerez pas avec des solutions prêtes à l’emploi, vous ferez plutôt les vôtres.

Conditions requises : Les technologies avec lesquelles vous travaillerez incluent Python, TensorFlow / PyTorch (et / ou les cadres d’apprentissage approfondis en entreprise) et SQL

Les questions que vous allez traiter ressemblent à :

-> “Comment améliorer la précision de notre modèle pour qu’il soit plus proche de l’état de la technique ?”

-> « Un optimisateur personnalisé aiderait-il à réduire le temps de formation ? »

Les cinq descriptions de poste que j’ai présentées ici ne sont certainement pas isolées dans tous les cas. Par exemple, à un démarrage précoce, un data scientist peut également être un ingénieur en données et / ou un analyste en données. Mais la plupart des emplois tomberont plus nettement dans l’une de ces catégories que dans les autres : plus l’entreprise est grande, plus ces catégories ont tendance à s’appliquer.

Dans l’ensemble, il est important de rappeler que pour être embauché, vous ferez mieux de créer un ensemble de compétences plus ciblé : n’apprenez pas TensorFlow si vous souhaitez devenir analyste de données et ne donnez pas la priorité à l’apprentissage de Pyspark si vouloir devenir un chercheur en apprentissage machine.

 

 Ebook gratuit : 7 soft skills essentiels pour devenir Data Scientist 

 Cet article peut intéresser un ami(e), partagez lui

 Participe gratuitement à nos prochains Meetup

La note globale de cet article est
[Total: 0 Average: 0]
Est-ce que cet Article vous a été utile? Utile Pas utile
Partager cet article