La première étape de chaque projet en Data Science est la collecte de données, c’est-à-dire l’obtention des données brutes et réelles.

Si les Data vous intéresse et que vous avez en tête de vous former aux Data Science, ces 2 articles devront vous intéresser :

 

Les 2 façons pour collecter des données

 

A) Collecter des données via des plateformes

Vous pouvez choisir un ou plusieurs outils. Ils vont collecter les données pour vous automatiquement. Il vous suffit de copier-coller un extrait de code sur votre site web et vous êtes prêt à partir. Comme par exemple : Google Analytics, Hotjar, CrazyEgg ou encoreMixpanel

 

B) Collecter des données par vous-mêmes

Vous pouvez collecter les données pour vous-même. Par exemple, via un fragment de code javascript qui envoie des données dans un fichier .csv en texte brut sur votre serveur. C’est un peu plus difficile à mettre en oeuvre car il nécessite des compétences en informatique. Mais à long terme, cette solution est beaucoup plus rentable que la solution A. Pourquoi ? Pour plusieurs raisons que je vais résumer ici :

 

  • Vous avez vos propres données, au lieu de dépendre de services tiers.

 

  • Vous avez un entrepôt de données unifié. Pas besoin d’intégrations, de piratages d’API, etc.

 

  • Vous pouvez faire confiance à vos données à 100%.

 

  • Vous payez des frais mensuels nettement inférieurs sur les coûts de serveur de données par rapport aux outils tiers.

 

  • Il n’y a pas de limites à l’utilisation de vos données ou à la connexion de différents points de données. (Par exemple, vous ne pouvez pas utiliser vos données dans Google Analytics pour configurer des modèles de prévision, mais vous pouvez le faire si vous disposez de votre propre base de données.)

Quelle que soit la méthode choisie, il est utile de comprendre le fonctionnement de la collecte de données en général. Faites-le pour vous-même ou en utilisant un outil tiers… des choses très similaires se produisent en arrière-plan !

 

1ère étape : Soulevons le capot de la collecte de data ?

Prenons un exemple simple !

Vous menez un projet de science des données commerciales: vous avez un site Web et vous souhaitez mesurer chaque clic sur ce site.

Commencez par implémenter un script de suivi invisible sur chaque élément cliquable de votre site ! Conséquence : à partir de maintenant, quand un visiteur de votre site Web clique sur un élément spécifique (disons un lien vers une autre sous-page), le clic crée deux choses:

 

  • Le visiteur va à la page sur laquelle elle a cliqué (évidemment)
  • Le script de suivi envoie un petit paquet de données à votre entrepôt de données.

C’est aussi simple que cela.

 

 

 

Vous pouvez suivre chaque action (appelé des événements ) sur votre site Web (ou dans votre application mobile) : pages vues, utilisation des fonctionnalités, etc. Vous pouvez suivre et collecter des données même sur les mouvements de la souris, si nécessaire. (Mais ce n’est généralement pas le cas).

 

2ème étape : après la collecte, le stockage des données

Lorsque le paquet de données entre en contact avec votre entrepôt de données, il peut être stocké dans différents formats.

Pour les startups, le meilleur format est le format texte brut car il est très flexible. Vous pouvez l’imaginer comme un simple fichier txt, csv ou tsv contenant du texte. De nombreuses entreprises suivent ce modèle.

Mais il convient également de mentionner que de nombreuses grandes entreprises (par exemple des multinationales) aiment collecter leurs données dans des bases de données SQL. Il existe cependant plusieurs autres moyens.

Examinons la solution la plus simple et la plus courante: le format texte brut.

N’oubliez pas que chaque événement (par exemple, un clic sur votre site Web) indique une ligne de données à l’aide de votre script de suivi déjà implémenté. Cette ligne va dans un fichier sur votre serveur de données. Nous appelons ce fichier un journal. Vous pouvez avoir plusieurs journaux, mais ils auront presque tous le même format, qui ressemble à ceci :

 

Ca a l’air compliqué ?

Peut-être au début, mais parcourez ce tableau par colonne! Ceci est un fichier .csv, le séparateur de champs est donc le point-virgule.

 

  • la date et l’heure : quand l’événement s’est produit

 

  • l’événement lui-même (dans ce cas: «clic»)

 

  • les détails de l’événement, par exemple. quel bouton exact a été cliqué

 

 

Ce sont les données de base que chaque journal de données doit contenir.

Mais il y a beaucoup plus de dimensions possibles à ajouter. Juste quelques exemples:

 

  • Identifiant unique du visiteur
  • adresse e-mail du visiteur
  • segment visiteur (si vous êtes connecté et si vous avez des segments prédéfinis)
  • système d’exploitation du visiteur
  • dernier paiement
  • dispositif du visiteur
  • canal d’acquisition (source, support, etc.)
  • site précédent
  • etc…

 

3ème étape : définir précisément les données à collecter

 

A) Les données à collecter

Comme vous pouvez le constater, vous pouvez collecter et stocker une quantité infinie de données. Infini verticalement (nombre d’événements différents que vous pouvez enregistrer) et horizontalement (nombre de dimensions que vous pouvez collecter pour un événement sur une ligne).

Cela soulève une question évidente: ce que vous devriez collecter et ce que vous ne devriez pas ?

Le principe ici est très simple: rassemblez tout ce que vous pouvez. Chaque clic, chaque page vue, chaque utilisation des fonctionnalités, tout.

Il est intéressant de noter que la plupart des startups qui appliquent ce principe Tout rassembler utilisent en réalité moins de 10% de leurs données. 90% n’est même pas touché par les analystes ! Alors vous demanderiez : pourquoi collectionne-t-ils toutes ces données ?

Et la réponse est : parce que vous ne pouvez jamais savoir quand vous pourriez avoir besoin de ces données dans le futur. Supposons que vous souhaitiez modifier une fonctionnalité de votre produit vieille de 3 ans et que vous ne souhaitiez rien gâcher. Avant le changement, vous passerez un certain temps à comprendre le rôle exact de cette fonctionnalité vieille de 3 ans. Et pour cela, vous devrez analyser vos données rétrospectivement. Mais vous ne pouvez le faire que si vous avez commencé à collecter les données il y a 3 ans.

C’est la raison ultime pour collecter toutes les données possibles.

 

B) Les données qui ne sont pas collecter

Il y a bien sûr des limites évidentes. Le prix de stockage n’est pas un élément décisionnaire. Stocker des données (du moins dans le nuage) est aujourd’hui très peu coûteux.

Les vraies limitations sont:

 

  • Le temps : les développeurs Web doivent passer du temps à mettre en œuvre les scripts de suivi. Et si vous avez un stockage de données vraiment complexe, vous aurez besoin d’une personne à plein temps pour créer et gérer l’infrastructure de données. Ainsi, si vos développeurs consacrent plus de temps à la collecte de données qu’à la production réelle, vous collectez peut-être trop de données.

 

 

  • Bon sens : oui, vous pouvez surcharger votre base de données – si vous enregistrez chaque mouvement de souris de chaque utilisateur chaque milliseconde. Tu ne devrais pas faire ça 🙂

 

  • L’oubli : dans la plupart des cas, la raison principale pour laquelle les gens ne collectent pas certaines données particulières est simple. Ils oublient que cela devrait être collecté. Cela arrive, ne vous inquiétez pas. Si vous voulez l’éviter, je suggère de mettre en place un atelier dans lequel vous vous discutez de pourquoi, comment et quelles données collecter avec le reste de votre équipe : finance, sales, marketing, production,….

 

  • Questions juridiques : Cela varie d’un pays à l’autre, je vous recommande donc de consulter un professionnel du droit de votre pays.

 

  • Dernier point : certains pays ont des restrictions légales strictes concernant la collecte de données, d’autres pas. Mais indépendamment des lois : toujours considérer l’éthique. Ne collectez jamais auprès de vos utilisateurs des données que vous ne voudriez pas collecter à votre sujet.

 

Conclusion : Data Science Débutant -> Comment fonctionne la collecte de données ?

Voici comment fonctionne la collecte de données. Google Analytics, Mixpanel, Crazyegg ou vos entrepôts de données DIY reposent tous sur ces principes. Bien sûr, il y a de petites différences, que je décrirai sans doutes dans un autre article, mais pour l’instant, vous pouvez être sûr de bien comprendre ce qui se passe en arrière-plan et vous pouvez être plus confiant dans l’utilisation de vos données.

? Ebook gratuit : 7 soft skills essentiels pour devenir Data Scientist

? Cet article peut intéresser un ami(e), partagez lui

? Participe gratuitement à nos prochains Meetup

La note globale de cet article est
[Total: 1 Average: 5]
Est-ce que cet Article vous a été utile? Utile Pas utile
Partager cet article