“Le big data, c’est comme le sexe chez les adolescentes: tout le monde en parle, personne ne sait vraiment comment le faire, tout le monde pense que tout le monde le fait, alors tout le monde prétend le faire..” – Dan Ariely

Je suis sûr que vous avez déjà entendu une telle comparaison. C’est à moitié drôle, mais à moitié vrai aussi. De nos jours, tout le monde parle de Big Data, de Data Analyse ou encore de Data Science, et la raison derrière cela n’est pas due à l’utilisation toujours plus massive des données, mais aux journalistes et aux responsables marketing qui réalisent qu’ils peuvent vendre presque n’importe quoi avec ces mots.

D’autre part, les vrais professionnels de la Data dans le domaine écrivent rarement des articles faciles à suivre sur le sujet, car ils sont plus intéressés par la technologie.

Le but de cet article est de justement combler cette lacune. Qu’est-ce que le Big Data ? Mais expliqué de manière claire et compréhensible, sans tout le blabla marketing habituel

Qu’est ce que le Small Data ?

Commençons par le Small Data. Qu’est ce que le Small Data ? 

Les bases de l’analyse des données remontent aux recensements, où des commissaires, il y a des milliers d’années, posaient toutes sortes de questions. La prochaine étape de l’évolution consistait en des questionnaires, qui sont encore aujourd’hui une méthode fréquemment utilisée dans les études de marché. Quel est le problème avec les sondages ? En partie l’échantillonnage : Même l’échantillonnage le plus précis peut être faux. Comment la réponse de 2.000 personnes pourrait-elle représenter les pensées d’un million de personnes ? Bien sûr, il existe des méthodes statistiques correctes, mais le risque d’erreur est toujours là. L’autre problème est la qualité des réponses. Les gens mentent et, souvent, ils ne savent même pas qu’ils mentent. Si je vous demandais quelle était votre couleur préférée, vous diriez peut-être aujourd’hui le rouge… puis une semaine plus tard, vous réaliserez que tous vos t-shirts sont jaunes et que vous devenez incertain. Mais à ce moment-là, vous avez déjà donné votre réponse et votre boss a déjà pris des décisions en fonction.

Ce sont des problèmes typique de Small Data (petites données)

Le “presque” Big Data

C’est ce genre de problèmes que la pensée Big Data apporte. Si nous pensons au Big Data, nous ne demandons pas aux gens, nous observons simplement leur comportement. De cette façon, ils ne peuvent pas nous mentir (ni eux-mêmes). En plus de cela, nous n’observons pas seulement 2000 personnes, mais toutes.

Évidemment, le moyen le plus simple de réaliser cela consiste à utiliser l’informatique et des domaines connexes, où chaque clic et chaque déplacement de la souris donne lieu à une nouvelle série de données.

C’est grâce à cette logique que des projets connus et utilisés tels que Google Analytics, CrazyEgg et Mixpanel, etc. sont nés.

Bien que tous les comportements utilisateurs/visiteurs aient été stockés dans ces outils, cela n’est toujours pas considéré comme du Big Data, car techniquement, nous ne parlons toujours que d’une petite quantité de données dans une limite donnée, avec un ensemble de données pas trop gérable de manière flexible (par exemple, vous pouvez créer uniquement des rapports prédéterminés, vous ne pouvez pas en combiner deux)… Mais alors, qu’est-ce qui est considéré comme Big ?

Le Big Data

L’une des tendances les plus importantes des dernières années (des décennies) a été la baisse constante et significative du prix du stockage des données. Nous sommes arrivés au stade où il est si bon marché de stocker des informations que nous sauvegardons tout et ne supprimons rien. Et c’est la clé du Big Data ! Nous stockons tout ce que nous pouvons sans rien supprimer, depuis de nombreuses années. Généralement, nous ne les stockons pas dans des programmes de type GoogleAnalytics, mais dans nos propres tables de données (SQL, par exemple) ou dans des journaux (par exemple, csv, txt).

Tôt ou tard, nous arriverons au stade où nous créerons des bases de données si gigantesques qu’il sera difficile pour un ordinateur de les stocker. De toute évidence, nous n’essaierons même pas d’ouvrir un ensemble de données d’un téraoctet dans Excel ou SPSS. Mais même une requête SQL normale peut prendre plusieurs heures, voire plusieurs jours. En termes simples, quoi que nous essayions (R, Python, etc.), nous réalisons qu’elle a atteint sa capacité de calcul maximale et ne peut pas traiter les données dans un délai raisonnable.

C’est à ce moment-là que les technologies Big Data entrent en jeu. L’idée principale est de ne pas en faire une mais des dizaines voire des centaines d’ordinateurs fonctionnant avec nos données. Souvent, ces clusters évoluent facilement et presque sans fin: plus nous disposons de données, plus nous pouvons impliquer de ressources dans le traitement. De cette façon, nous pouvons à nouveau analyser nos données dans un délai raisonnable. Toutefois, interconnecter de nombreux ordinateurs et les faire fonctionner simultanément sur un seul script nécessite de nouvelles infrastructures et de nouvelles technologies. C’est ainsi que sont nés les technologies Big Data à grande échelle, qui ont vu naître de nouveaux concepts tels que Hadoop, YARN, Spark, Pig et de nombreuses autres technologies Big Data.

L’évolution du Big Data au sein des entreprises

Voyons comment l’évolution des Big Data fonctionne dans le cas d’une startup en ligne :

  1. Au début, la société n’avait pas de Data Analyst, mais elle ne voulait pas voler à l’aveugle. Ils ont donc configuré Google Analytics, Mixpanel et CrazyEgg et ont observé leurs données.
  2. Ils ont leurs 10 000 premiers utilisateurs. La direction réalise que Mixpanel et CrazyEgg commencent à coûter cher et qu’ils ne publient même pas assez de rapports détaillés. Ils commencent donc à créer leurs propres tables SQL et créent des journaux de texte ou csv. Un responsable de données analyse cela par les variations de scripts SQL, Python ou R.
  3. Le nombre d’utilisateurs ne cesse de croître et l’équipe d’analyse commence à se plaindre que les scripts d’analyse ne sont pas exécutés même après 10 à 20 minutes. Puis, lorsqu’ils atteignent un temps de chargement de nombreuses heures, ils réalisent qu’ils ont besoin de la technologie Big Data

J’espère que cet article aidera à clarifier un peu le mythe du Big Data. Vous pouvez retrouver d’autres articles à propos du Big Data et de la Data Science sur notre blog !

? Ebook gratuit : 7 soft skills essentiels pour devenir Data Scientist

? Cet article peut intéresser un ami(e), partagez lui

? Participe gratuitement à nos prochains Meetup

La note globale de cet article est
[Total: 1 Average: 5]
Est-ce que cet Article vous a été utile? Utile Pas utile
Partager cet article