Compétences en programmation, une feuille de route complète pour l’apprentissage de la data science

Photo par Chris Ried sur  Unsplash

Dans la série d’articles suivante, je vais décrire un programme complet pour apprendre la data science à partir de zéro.    Ce sont toutes des compétences qui figurent sur ma feuille de route personnelle que je suis depuis quelques années et que je continuerai de suivre au fur et à mesure que je progresserai dans la science des données plus avancée.

J’ai choisi de commencer avec des compétences en programmation. Personnellement, j’ai constaté que j’appris mieux en essayant d’abord de mettre en pratique les techniques de la data science avant d’apprendre la théorie, les mathématiques et les statistiques qui les sous-tendent. J’ai trouvé que cette technique me permettait d’apprendre très rapidement et efficacement. La programmation dans mon expérience donne la base pour commencer à apprendre l’analyse de data, machine learning et l’ingénierie de data.

Ci-dessous, je vais énumérer les compétences essentielles en programmation, dans l’ordre qui, à mon avis, convient le mieux pour les apprendre. Python étant mon langage de programmation préféré pour la data science, ce billet est donc fortement axé sur le python, mais les techniques de base sont applicables à tout autre langage que vous êtes en train d’apprendre.

Compétences de base en programmation python

Dans un premier temps, je suggérerais de suivre une introduction au cours Python ou similaire. Le cours d’introduction au python de Code Academy a été le premier cours de programmation que j’ai suivi. Il donne une introduction à la syntaxe de base, aux conditions et au flux de contrôle, aux fonctions, aux boucles et à une introduction aux classes.

codeacademy apprendre cours de python

Pandas et Numpy

Une fois familiarisé avec les bases, j’ai commencé à utiliser Jupyter Notebooks (bien que j’utilise maintenant Jupyter Labs et que je le recommande vivement), et j’ai commencé à apprendre les bibliothèques de manipulation de data. Ce sont des pandas et des numpy, et ils constituent la base de la plupart des analyses de données et de la préparation de données pour le machine learning.

Pour les pandas, j’ai préféré utiliser les excellents tutoriels de la documentation plutôt que des cours en ligne spécifiques. Les tutoriels présentés ici constituent une introduction fantastique à tous les aspects de la bibliothèque et incluent des jeux de données afin que vous puissiez les appliquer de manière pratique. De plus, ce document est sans conteste l’une des meilleures ressources pour couvrir généralement l’analyse de data en Python, et couvre incroyablement bien les pandas et les numpy.

Classes, objets et forfaits

Dans la data science, il arrive souvent que vous ayez besoin de réutiliser des morceaux de code et il peut être utile de créer des classes pour faciliter cette opération. Pour moi, c’était aussi la première étape pour acquérir de l’expérience dans la programmation hors du laboratoire Jupyter. De plus, lorsque vous commencez à utiliser la data science en production, il devient probablement essentiel de pouvoir créer vos propres packages. Il m’a fallu un certain temps pour vraiment «obtenir» une programmation orientée objet et j’ai constaté que la plupart des tutoriels en ligne utilisaient des exemples abstraits, tels que la création d’une classe «dog». J’ai eu du mal à combler le fossé entre apprendre cela et l’utiliser réellement pour une application de data science.

Voici un exemple merveilleux de didacticiel qui décrit la création d’une classe python dans le but d’obtenir des data à partir d’une API. Il y a aussi quelques diapositives d’accompagnement ici . En utilisant cela, et en passant du temps à chercher dans le code certaines des bibliothèques de science de données open source que j’utilise, m’a permis de transformer certains de mes travaux antérieurs en classes et finalement en paquets.

La première classe que j’ai écrite pour accéder aux données d’une API météo

Web Scraping

C’est une compétence très utile sur laquelle je travaille encore. Il s’agit du processus d’écriture de code python qui «explorera» un site Web et obtiendra automatiquement des data structurées. Cela vous permettra d’accéder à de nouveaux ensembles de données, tant pour la pratique de la science des données que pour le travail de data science. La belle bibliothèque de soupes est l’une des bibliothèques les plus courantes à cet égard. J’ai appris les bases pour cela via la piste d’apprentissage Dataquest Data Science, mais j’ai également trouvé très utile de parcourir ce tutoriel .

Apis

API, ou interface de programme d’application, dans le contexte de la data science est une application développée par des sites Web pour permettre l’accès à des données, en particulier des données qui changent régulièrement. En tant qu’informaticien, vous pouvez accéder à ces données, ce qui vous donne un meilleur accès à de nouvelles data ou à des data qui fournissent davantage de contexte aux informations avec lesquelles vous travaillez déjà.

Encore une fois, j’ai appris cela grâce au cours Dataquest, mais si vous recherchez une ressource gratuite, ils ont également publié cet excellent tutoriel .

Ligne de commande

Je suis actuellement en train de parcourir le livre suivant, qui est disponible gratuitement en ligne. Cela explique comment vous pouvez utiliser la ligne de commande pour tous les aspects de la data science, depuis l’obtention, le nettoyage et l’exploration de data, jusqu’à la création d’un modèle de régression avec le laboratoire Sci-Kit Learn. Apprendre à utiliser la ligne de commande a rendu mes flux de travail beaucoup plus efficaces et, au fur et à mesure que je commence à travailler sur la data science en production, cela devient une compétence essentielle.

La science des données à la ligne de commande de Jeroen Janssens

Github

Github vous permet de suivre les modifications que vous apportez à votre code et de les annuler si nécessaire. Cela vous permet également de travailler en collaboration sur des projets de data science et peut être un excellent endroit pour partager et présenter votre propre travail. Les compétences essentielles à apprendre ici incluent:

  • Configuration Git
  • Ajout et suppression de fichiers
  • Comment annuler les modifications
  • Comment créer et fusionner des branches, et comment gérer des conflits
  • Comment créer et cloner des référentiels
  • Comment appliquer des modifications aux référentiels distants

Il y a un certain nombre de tutoriels disponibles en ligne, j’ai particulièrement aimé celui-ci de Data Camp . Cependant, la création de mon propre compte et la mise en pratique de ces techniques dans un scénario réel étaient essentielles pour bien comprendre les concepts.

Cet article a donné un aperçu des principales compétences en matière de programmation figurant sur ma feuille de route pour l’apprentissage de la data science. Dans des articles ultérieurs, je couvrirai ma feuille de route pour l’analyse des données, les mathématiques et les statistiques pour la data science, machine learning et l’ingénierie des data.

? Ebook gratuit : 7 soft skills essentiels pour devenir Data Scientist

? Cet article peut intéresser un ami(e), partagez lui

? Participe gratuitement à nos prochains Meetup

La note globale de cet article est
[Total: 0 Average: 0]
Est-ce que cet Article vous a été utile? Utile Pas utile
Partager cet article