LA DATA SCIENCE C’EST QUOI ?

La data science est une discipline scientifique à la recherche de la vérité qui utilise les données pour extraire des connaissances et des idées. La data science est l’une des fonctions dont la croissance est la plus rapide et offre déjà une valeur considérable dans tous les secteurs et domaines d’étude. Néanmoins, la data science en est encore à ses balbutiements et, comme dans tout domaine en développement, il est souvent tentant de définir des limites. Plutôt que de classer ce qui compte ou ne compte pas dans la data science ou de discuter de la raison pour laquelle nous devrions être informés, mais non guidés par les données, nous pensons qu’il est primordial de laisser une marge de manœuvre pour que la discipline évolue de manière organique.

POURQUOI LA DATA SCIENCE EST-ELLE IMPORTANTE?

Il est devenu plus facile de créer une entreprise de technologie, de créer un bon produit et de gagner du terrain grâce à une connectivité améliorée, à la réduction des coûts de stockage en nuage et de calcul, et à l’accessibilité des plates-formes de distribution pour atteindre des publics cibles. En conséquence, le temps nécessaire à un produit pour atteindre 100 millions d’utilisateurs actifs par mois s’est considérablement réduit et continue à diminuer. Par exemple, il a fallu environ 100 mois à iTunes pour atteindre 100 millions d’utilisateurs actifs par mois en 2003 et à quelques jours à peine pour que Pokemon Go fasse de même. Le tableau ci-dessous contient d’autres exemples intéressants, à commencer par le téléphone.

La combinaison de davantage de produits, de davantage d’appareils connectés à Internet et de l’augmentation du temps passé en ligne a provoqué une flambée du volume de data sur les interactions des utilisateurs. L’exploitation de ces data a suscité un vif intérêt et a permis de dégager des informations clés pour construire des produits de qualité. La capacité d’une entreprise à faire face à la concurrence se mesure maintenant à quel point elle applique avec succès l’analyse à de vastes ensembles de data non structurées provenant de sources disparates afin de stimuler l’innovation produit. Par conséquent, les data scientist sont en forte demande et une équipe de data scientist intelligents peut créer ou casser un produit.

L’INTÉRÊT DE LA DATA SCIENCE

Cet intérêt croissant pour les data d’exploration de data a conduit les équipes de produits à utiliser les données pour se concentrer sur quatre résultats spécifiques.

  1. Évaluer la santé de l’entreprise: l’un des principaux résultats de l’analyse de produit consiste à évaluer la santé d’un produit ou d’une entreprise. Une fois que nous avons défini le succès du produit à l’aide d’un objectif et d’une métrique, l’étape suivante consiste à surveiller la métrique pour nous assurer que nous sommes sur la bonne voie pour atteindre notre objectif. Sur le plan tactique, les analystes travaillent à identifier les valeurs aberrantes, à comprendre les facteurs de changement des métriques, à créer des tableaux de bord / rapports / visualisations, etc.
  2. Fournissez les bons produits et fonctionnalités: Un autre rôle très important de l’analyse consiste à s’assurer que les bons produits et fonctionnalités sont construits. De nombreuses entreprises réalisent de nombreuses expériences et expédient des produits après avoir évalué les résultats de ces expériences. En règle générale, les data scientist aident à la conception d’expériences, identifient des hypothèses de phénomènes fondées sur des données et guident l’équipe produit dans l’optimisation constante du produit grâce aux informations recueillies.
  3. Résultats de prévision et systèmes de production d’énergie – Les data scientist ont également pour rôle de concevoir des prototypes / modèles et des systèmes de production d’énergie utilisant la technologie AI / ML. Ces informaticiens forment des modèles de machine learning d’un phénomène afin de prévoir les attentes et les tendances futures.
  4. Définir une feuille de route et une stratégie pour le produit: Une exploration et une analyse approfondies du parcours et des phénomènes des utilisateurs génèrent des informations exploitables qui aboutissent à la définition d’une feuille de route et d’une stratégie pour le produit. La feuille de route et la stratégie axées sur les données constituent l’un des résultats les plus importants d’une équipe mondiale d’analyses de produits.

Ces quatre résultats ont spécifiquement conduit à deux types différents de data scientist dans l’industrie – les analystes de produits et les développeurs d’algorithmes.

QUE FONT LES SCIENTIFIQUES DES DONNÉES?

Le titre de Data Scientist englobe plusieurs rôles qui varient considérablement d’une entreprise et d’un secteur à l’autre. Cela dit, d’une manière générale, il existe deux camps principaux de spécialistes des données:

  1. Les analystes de produits, dont le rôle est de fournir des récits fondés sur des données qui préconisent un changement de produit ou de stratégie. Par exemple, notre système d’envoi de notifications par SMS est en panne en Inde. En conséquence, nous devons nous concentrer sur l’amélioration des notifications par SMS en Inde, ce qui contribuera à relancer la croissance.
  2. Les développeurs d’algorithmes, dont le rôle est d’incorporer des fonctionnalités axées sur les data dans les produits (optimisation des recommandations ou des résultats de recherche, par exemple). Par exemple, les niveaux de fraude en Indonésie ont augmenté. Construire un nouveau modèle qui se concentre sur la récente tendance à la fraude en Indonésie.

LES MISSIONS DES DATA SCIENTIST

Les analystes produits se concentrent sur la définition d’objectifs et l’information sur les feuilles de route et les stratégies de produits. Ils aident à améliorer les produits en évaluant et en comprenant leur état de santé et en fournissant les décisions relatives au produit (principalement via l’expérimentation). Le produit livrable général fourni par les analystes produit est un document destiné à l’équipe produit, qui décrit les problèmes quantifiables, les opportunités identifiées, ainsi que des recommandations et des solutions basées sur des données.

La principale tâche d’un développeur d’algorithmes consiste à exploiter les data pour améliorer les performances du produit dans la poursuite d’un objectif final spécifique, généralement la prévision des résultats ou la construction de systèmes de production . Les développeurs d’algorithmes utilisent généralement le machine learning et d’autres techniques algorithmiques complexes pour établir des prédictions basées sur des entrées provenant de vastes quantités de data. En général, les développeurs d’algorithmes prototypent les solutions proposées et travaillent en étroite collaboration avec les équipes d’ingénierie pour les implémenter en production. Le livrable fourni par les développeurs d’algorithmes est un code prototypé et une documentation fournie à l’équipe d’ingénierie.

Bien que les deux types de data scientist nécessitent une perspective analytique, des compétences quantitatives et la capacité d’établir des priorités, il est rare de trouver une personne capable de remplir les deux rôles. Les développeurs d’algorithmes nécessitent des connaissances techniques plus sophistiquées, telles que le machine learning et l’intelligence artificielle, ainsi qu’un niveau de compétences en ingénierie logicielle plus proche de celui des ingénieurs. Les analystes de produits sont principalement des solutionneurs de problèmes qui se différencient par leur activité, leur produit et leur capacité à communiquer efficacement avec un large éventail de parties prenantes.

Alors que seules certaines entreprises ont besoin de développeurs d’algorithmes, toutes les entreprises, en particulier celles qui comptent un nombre important d’utilisateurs, bénéficient des analystes de produits capables de faire face aux défis stratégiques liés aux produits, à la concurrence et autres. Plus loin dans cette série d’articles de blog, nous fournirons des conseils supplémentaires sur le recrutement, la formation, le coaching et la gestion des analystes de produits afin qu’ils puissent contribuer au plus haut niveau.

Les entreprises doivent-elles donc engager des développeurs d’algorithmes et être davantage axées sur les données ou doivent-elles embaucher des analystes de produits et être plus informées des data ? Les résultats sont purement axés sur les data lorsque les data sont le seul signal nécessaire pour prendre une décision. En revanche, dans les décisions fondées sur les data, les data constituent un apport important, mais pas le seul. D’une manière générale, les analystes de produits sont informés et les développeurs d’algorithmes sont axés sur les data.

EVOLUTION DE LA DATA SCIENCE

Imaginez un monde dans lequel une machine sait tout sur vous et peut faire vos achats sans même le lui demander explicitement; connaît la nourriture que vous aimez et cuisine pour vous; connaît vos choix et peut prendre des décisions pour vous et sait ce qui est bon pour vous et planifie votre vie. Ce monde est lointain dans l’avenir et nécessite que l’Intelligence Artificielle s’occupe de beaucoup de nos vies. Pour que nous puissions progresser dans la réalisation de ce rêve, nous devons devenir encore plus axés sur les data.

Dans un monde parfait avec des informations parfaites et une compréhension complète de tous les pilotes de votre système et de la façon dont ils interagissent, les deux approches convergeraient. Afin de construire un modèle parfait, le phénomène à l’étude doit être complètement compris; la relation entre les données et le phénomène peut être décrite par un modèle parfait (et son riche ensemble de fonctionnalités). Pour pouvoir atteindre ce niveau de perfection et progresser dans l’intervalle, le monde devra continuer à progresser dans la prise de décision fondée sur des data. c’est-à-dire que nous devons continuer à augmenter notre prise de décision par d’autres mesures subjectives qui ne peuvent pas encore être facilement quantifiées. Alors que nous commençons à avoir une compréhension plus profonde des relations entre les objets, de plus en plus de processus seront automatisés et l’avenir sera davantage axé sur les données que sur les données. Cependant, la prise de décision fondée sur les données restera extrêmement importante au cours des prochaines décennies et la prise de décision basée sur les données ne s’améliorera qu’avec les progrès des personnes informées.

Il est très illustratif de comprendre les différences entre la prise de décision basée sur des data et la prise de décision basée sur des données à l’aide d’exemples.

  • Fixer des objectifs . Les bons objectifs sont mesurables et quantifiables. La capacité d’identifier et de suivre les objectifs deviendra de plus en plus axée sur les données. Par exemple, le suivi de Facebook de ses utilisateurs actifs peut être complètement automatisé. Cependant, la définition d’objectifs trimestriels et annuels appropriés pour les utilisateurs actifs et les revenus peut n’être que partiellement automatisée et continuer à être basée sur des données.
  • Définir une feuille de route et une stratégie. L’établissement d’une feuille de route et d’une stratégie n’est pas quantitatif et nécessite donc des approches fondées sur des données. Par exemple, en utilisant les données, une feuille de route peut être développée pour augmenter l’utilisation active quotidienne en se concentrant sur la notification par SMS. Une bonne feuille de route prend en compte les objectifs pertinents, les moteurs de ces objectifs, les leviers de l’équipe produit et tous les plans d’action pouvant être pris. La plupart de ces éléments sont qualitatifs. Le processus de création d’une feuille de route et de définition de la stratégie repose donc essentiellement sur des données.
  • Prévision des résultats . La prévision des résultats est principalement basée sur les données. Par exemple, déterminer s’il faut ou non montrer une histoire à un utilisateur nécessite de comprendre plusieurs facteurs, notamment la probabilité qu’un utilisateur clique sur cette histoire ou la lise. Les entreprises développent généralement des modèles, qui sont itérés de manière continue, pour prévoir ce résultat spécifique.
  • Alimenter les systèmes de production. Pour des entreprises telles que PayPal pour identifier une activité frauduleuse dans une transaction, il est extrêmement coûteux de procéder manuellement à cette opération pour toutes les transactions. En conséquence, ils ont largement recours au machine learning pour alimenter leurs systèmes de production et automatiser le calcul de la probabilité qu’une transaction soit mauvaise. Une grande partie de la prise de décision qui suit l’évaluation de la probabilité est également automatisée. Toutefois, dans les domaines où la confiance dans les évaluations de probabilité est plus faible, le processus de décision pourrait être basé sur des données.

TAKEAWAYS

  • L’amélioration des produits et la monétisation au moyen de données sont devenues un avantage concurrentiel au cours des dernières années. Une organisation de données forte et bien organisée est un facteur de différenciation fort.
  • Les scientifiques de données prennent les décisions clés en matière de produits dans les entreprises et construisent des algorithmes de nouvelle génération pour améliorer la prise de décision.
  • Le monde continuera à être de plus en plus axé sur les données, mais la prise de décision fondée sur des données restera pertinente.

? Ebook gratuit : 7 soft skills essentiels pour devenir Data Scientist

? Cet article peut intéresser un ami(e), partagez lui

? Participe gratuitement à nos prochains Meetup

La note globale de cet article est
[Total: 0 Average: 0]
Est-ce que cet Article vous a été utile? Utile Pas utile
Partager cet article