26/10/2023

Quand la data science et le marketing se recontrent

La science des données est un sujet vaste et passionnant, mais encore trop méconnu par les non-experts du domaine et plus particulièrement dans le monde du marketing, d’après notre expérience.

Pourtant, il est déjà établi que parmi l’infinité de sujets que les data science permettent de traiter, celui du marketing est certainement l’un des plus actionnables. Avec des quantités de données toujours plus importantes à disposition, avoir une compréhension au moins minimale des enjeux autour de ce champ d’étude en marketing n’est désormais plus une option pour faire croitre ses performances marketing.

Pourquoi les gens peuvent encore avoir du mal avec les data science ?

Il faut l’admettre, les sciences des données, c’est quand même surtout des maths… Et les maths, ça divise. Alors on se rassure, on va pas trop aborder l’aspect mathématique (pour l’instant) mais par conséquent il va falloir admettre vraie certaines affirmations sans trop d’explication, même si on vous assure qu’il y a bien des équations derrière tout ça qui font que ça marche !

Bon alors, le rôle des data science en marketing ?

Eh bien on peut le diviser en 3 grandes familles d’action :

La description
La prédiction
L’inférence

Les data sciences pour décrire sa donnée

Il est devenu simple de collecter de large quantités de données, peu importe la taille de votre organisation. Que ce soit à travers des outils analytiques de toute sorte, des régies publicitaires, de la donnée de point de vente physique, le sujet de la data ingénierie de ne manque pas d’épaisseur.

Mais une fois que cette donnée est disponible, on fait quoi avec ?

Eh bien, c’est là la première grande fonction, décrire.

Alors les puristes pourront rétorquer que c’est plutôt le travail de la data analyse que de mener des EDA : Exploratory Data Analysis. Et ils n’auraient pas complètement tort.

Toutefois, cette partie fait tout autant appel aux mathématiques et au raisonnement scientifique que les deux autres, donc on peut quand même la considérer comme faisant partie de l’influence des data science.

Décrire qu’est-ce que ça veut dire ?

Impossible de citer toutes les méthodes de description ici, mais on peut notamment noter l’affichage de la donnée sous forme de graphique, la fameuse data visualisation permettant de créer des dashboards et autres reportings.

L’étude des corrélations entre les différentes variables en présence à l’aide de pairplot ainsi que de leur distribution probabiliste.

Représentation graphique de matrice de covariance — Exemple de matrice de covariance

Le calcul de statistiques de bases telles que la moyenne, le mode, l’écart type etc.

Toutes ces techniques permettent de mieux se représenter la vue d’ensemble de la forme que prend un jeu de donnée afin de mieux le comprendre et de s’en servir pour répondre à des questions.

Dans quel région retrouve-t-on le meilleur panier moyen ?

Quel canal offre le meilleur ROAS ?

A quelle heure de la journée est-il préférable de diffuser nos publicités ?

Est-ce le message A ou B qui offrent la meilleure rétention sur site ?

Etc.

On peut alors voir la description comme étant un regard en arrière du moment présent sur la donnée passée.

La science des données pour faire de la prédiction

Généralement quand on cherche data science dans une banque image on retrouve des photos de robots ou de machine intelligentes capables de résoudre des problèmes complexes.

Oui, on fait allusion au machine learning, depuis l’avènement des chat-GPT et autres modèles de LLM tout le monde n’a plus que le mot deep-learning à la bouche. Et c’est en soi une très bonne chose car le fonctionnement des réseaux de neurones est purement passionnant. On vous recommande l’excellent blog de machine learnia ainsi que sa chaine Youtube si vous souhaitez en savoir davantage.

Toujours est-il, tout le but de cet article est justement de souligner que les data science c’est bien plus que le deep-learning ou juste le machine learning et que ça peut être utile à toutes les entreprises à toutes les échelles même si on ne sait pas coder un réseau de neurones convolutif !

Bon mais alors pourquoi on parle de machine learning depuis 3 paragraphes alors que le titre c’est “prédiction” ?

Parce que le but de toutes ces méthodes c’est de faire de la prédiction, comment c’est possible ?

Eh bien c’est justement le premier moment où il va falloir nous croire quand on vous dit que mathématiquement ça s’explique très bien, même si tel quel ça a l’air un peu magique.

L’apprentissage statistique est une branche particulière des statistiques qui regroupe un ensemble de techniques et de méthodes permettant de créer des “modèles”, il faut s’imaginer une fonction au sens mathématique du terme, à partir de données observées.

Le modèle va chercher à reconnaitre des schémas et des relations entre les données pour réaliser cet apprentissage, et c’est ce qu’on appelle la phase d’entraînement.

exemple de régression linéaire — Modèle de régression polynomial

Une fois le modèle entraîné, il peut alors se généraliser à de nouvelles données qu’il n’avait jamais rencontrées avant. Et puisque ces données sont nouvelles par définition, on dit que le modèle prédit le résultat de sortie en fonction des nouvelles données d’entrées.

(Tout ça est extrêmement simplifié, mais on a dit qu’on ne parlerait pas de maths !)

Le développement de tels algorithmes peut alors permettre de prédire automatiquement la chance de conversion d’une publicité en fonction d’un certain affichage, et c’est précisement ce à quoi travaillent les algorithmes de nos régies préférées comme Google Ads ou Meta.

On peut faire du lead scoring automatique qui affecte une note à un nouveau visiteurs en fonction de ses caractéristiques et qui va déclencher une certaine suite d’action marketing en fonction d’un seuil. Par exemple activer un chatbot, afficher un bloc en particulier, ou offrir une promo particulière.

On peut également imaginer d’entraîner des modèles permettant de prédire et anticiper le churn afin d’agir rapidement pour essayer de le prévenir.

Etc, etc.

Par conséquent, on peut interpréter la prédiction comme étant le fait de regarder dans le futur par opposition à la description.

La science des données pour l’inférence causale

Prêt ? Parce que c’est à partir de là que ça devient absolument passionnant !

Bon alors déjà, ça veut dire quoi inférer ?

Si vous cherchez sur Google vous allez tomber sur cette définition : L’inférence est une opération logique par laquelle on admet une proposition en vertu de sa liaison avec d'autres propositions déjà tenues pour vraies.

Dis autrement, c’est réussir à estimer quelle est la cause d’une conséquence, tout simplement (même si dans la réalité c’est pas simple du tout à faire !).

Bon, détaillons un peu tout ça.

Déjà il faut commencer par dire que non, ce n’est pas ce que fait un algorithme d’apprentissage statistique.

L’apprentissage statistique (ou machine learning pour simplifier) se sert des relations de corrélation et/ou des schémas présents dans un jeu de donnée pour créer un modèle, une fonction mathématique.

Mais en fait, on a pas vraiment tout dit dans le chapitre précédent, un tel algorithme n’a pas que vocation à faire des prédictions. Il peut, et va, aussi être utilisé pour interpréter la relation entre ses données, savoir que si telle variable bouge d’une certaine quantité, alors telle autre va bouger d’une certaine autre quantité.

Bon bah c’est bon on a gagné, l’inférence ne sert à rien puisque le machine learning trouve déjà à notre place les relations de cause à effet ?

Pas vraiment, certes savoir qu’une variable est corrélée positivement ou négativement est une information intéressante. Cependant, en rien la quantité de “corrélation” est une indication de la quantité de causalité.

Parce que corrélation n’implique par causalité.

Vous avez sûrement déjà vu ce graphique montrant que le nombre de noyades dans une piscine aux US est corrélé avec le nombre de film de Nicolas Cage ?

Si corrélation impliquait causalité, alors il faudrait affirmer au choix que chaque film de Cage cause des centaines de morts par noyade, ou à l’inverse que chaque personne ayant esquivé la mort dans sa piscine à fait perdre un contrat à notre bon Nicolas.

Vous voyez ? Ça n’a absolument aucun sens.

Or, donnez cette data à un algorithme de machine learning sans plus de réflexion et il fera d’excellentes prédictions !

Bon alors comment on fait ?

Vous avez certainement entendu parler des essaies contrôlés randomisés en double aveugle ? Oui les statisticiens sont nuls pour donner des noms aux choses.

Et bien c’est la meilleur façon de faire pour réussir à établir une relation causale. Cette intervention de l’aléatoire permet d’égaliser l’ensemble des effets des variables que l’on ne souhaite pas étudier pour isoler la variable dont on pense qu’elle cause l’observation d’inrérêt.

Le problème c’est que dans la vraie vie, toute la donnée qu’on observe et dont on dispose n’est pas le résultat d’essais randomisés. Ce serait tellement, mais alors tellement pratique d’avoir des outils qui nous permettent quand même d’estimer ces relations causales même sans avoir recours aux test randomisés, pas vrai ?

Eh bien c’est possible, et c’est précisement là le rôle des modèles d’inférence causaux, comment ?

Bon désolé de vous de décevoir mais là encore… c’est des maths.

Sachez juste qu’il est possible grâce à des modèles particulier de machine learning associé à la théorie causale de quantifier et identifier concrètement les vrais relations de causes à effet entre des variables.

Et pour les plus motivés, sachez qu’il faut se tourner du côté de la théorie des graphes.

Par conséquent on peut voir l'étude de l'inférence comme, regarder sa donnée pour comprendre qu'est qui l'a causé ?

Toutefois, même sans étudier précisement comment c’est réalisable, voir ce qu’il devient possible de faire avec est très enthousiasmant.

L’utilité de modéliser les relations de cause à effet entre ses variables est de pouvoir répondre à des questions du style :

Si j’augmente mon budget Ads sur tel canal, quel va être l’effet sur mon CPA, sur mon nombre de leads ? Sur mon ROI ?
Est-ce qu’il serait plus rentable par conséquent d’allouer 30% de mon budget à X, 60% de mon budget à Y, et 10% de mon budget à Z ou bien de faire autrement ? Et quelle serait l’approche optimale ? (Oui oui il est possible de résoudre ce genre de problème grâce à des méthodes d’optimisation sous contrainte, merci les maths !)
Et si au lieu d’avoir mené telle action marketing, j’avais mené telle autre, quelle conséquence j’aurais été en droit d’attendre ? Et avec quel niveau de certitude ?
Ou tout simplement, quelles sont les variables qui ont réellement un effet (causal) sur les conversions ?

Apporter des réponses précises à ces questions est loin d’être trivial et requiert une connaissance approfondie des méthodes scientifiques sous-jacente de l’ensemble de ces concepts.

Pour autant, il est assez simple de se convaincre que plus d’information sur ces sujets ne peut mener qu’à plus de clairvoyance quant aux décisions marketing prises et sur le long terme à des performances décuplées par rapport à ses concurrents qui font naviguer leurs campagnes au gré des vents.

En résumé, la science des données ça consiste à :

Décrire des jeux de données
Créer des algorithmes de prédiction
Établir et quantifier des relations de cause en effet entre des variables

Et donc non la data science ça n’est pas que de l’intelligence artificielle, et impliquer ses fondements dans sa réflexion au quotidien ne peut qu’être bénéfique sur votre performance sur le long terme.

Axel Courtine

Head of Data Science

Si vous souhaitez en apprendre davantage sur les mathématiques derrière les data science, vous pouvez consulter mon blog personnel sur le sujet !

Quand la data science et le marketing se recontrent

Les data sciences pour décrire sa donnée

La science des données pour faire de la prédiction

La science des données pour l’inférence causale

Check our other posts