Webmarketing

Google analytics RGPD : peut-on toujours tirer profit des données ?

David Voge - 10.4.2024

Si l’on pouvait tout connaître sur son client avant même d’interagir avec lui, on pourrait sans aucun doute lui trouver une offre qu’il ne pourrait refuser. Cela semble être la promesse du big data : collecter des informations sur les visiteurs de sa plateforme afin d’établir leur profil de navigation pendant leur présence sur votre site.

Venez découvrir quels sont les outils possibles et légaux pour mettre en place une stratégie commerciale avec le service de récolte et de traitement de données Google Analytics.

Google Analytics, un outil puissant

Google Analytics est un service d’analyse du trafic sur un site qui permet à ses usagers d’obtenir et visualiser les comportements de navigation des visiteurs de leur site internet. L’interface Google Analytics se présente donc comme un tableau de bord customisable aux nombreuses fonctionnalités.

Par exemple, l’onglet audience de cet outil peut vous permettre de déterminer l’âge des visiteurs de votre site, leur sexe et leur zone géographique. L’onglet acquisition vous permet d’identifier leur provenance (recherche organique, redirection depuis un site tiers, redirection depuis un réseau social…), tandis l’onglet comportement vous permet de traquer les actions effectuées par les internautes.

Toutes ces données peuvent être croisées afin de corréler des profils d’utilisateur à des comportements de navigation, ce qui peut être exploité à des fins commerciales.

Le déploiement de Google Analytics nécessite d’insérer dans le code source de vos pages web des balises Javascript. Elles s’exécutent lorsqu’un utilisateur charge une page de votre site, et envoient des requêtes aux serveurs de Google, conduisent au dépôt de cookies sur le navigateur de l’utilisateur utilisés pour de la mesure d’audience. Ils contiennent un identifiant utilisateur unique permettant de stocker et de reconstituer son parcours individuel de navigation sur votre site.

Les données exploitables dans le cadre du RPGD

Google Analytics est donc un outil puissant capable de catégoriser les visiteurs d’un site internet et de mettre en évidence leurs comportements spécifiques de navigation. Si l’utilisation d’un tel service peut se révéler très profitable, son déploiement doit se faire en connaissance du Règlement Général sur la Protection des Données (RGPD).

Ce dernier est un règlement européen entré en vigueur le 25 mai 2018 et constitue le texte de référence en matière de protection des données à caractère personnel.

Dans le cadre du RGPD, on distingue d’un côté le responsable de traitement des données qui choisit quelles données vont être collectées et comment elles vont être exploitées, et le sous-traitant qui effectue la collecte et le traitement. Google Analytics est un sous-traitant, et ses usagers sont des responsables de traitement. Dans le cadre du RGPD, la responsabilité légale est portée par le responsable de traitement. Si Google essaye de se mettre en accord avec les réglementations sur la protection des données européennes, certaines applications de google analytics peuvent être en infraction avec le RGPD. C’est pourquoi l’usager doit être vigilant aux données qu’il récolte et exploite.

Par exemple, le RGPD impose au responsable du traitement de tenir un registre des traitements. Pour chaque traitement mis en place, l'entreprise identifie la finalité, les catégories de personnes et de données et de destinataire, s'il y a transfert, mentionner le délai prévu pour l'effacement et les mesures de sécurité techniques. Cette obligation est systématique quelle que soit la taille de l'entreprise.

De plus, les responsables de traitement sont tenus au principe de proportionnalité : on ne peut traiter des données que si on a établi au préalable une finalité. Seules les données nécessaires à la finalité doivent être acquises et traitées, et ne peuvent être conservées que pendant une certaine durée de conservation des données (qui dépend des données, du contrat etc)

Les responsables de traitement doivent pouvoir présenter des preuves de conformité au RGPD, ce qui implique de documenter les outils et traitements mis en place sur leur site internet, et cela s’applique à l’utilisation de Google Analytics. En France, la CNIL (Commission nationale de l’informatique et des libertés) peut sanctionner une infraction au RGPD par une amende pouvant s’élever jusqu’à 4% du chiffre d'affaires mondial de l’entreprise impliquée.

Déployer Google analytics sans enfreindre le règlement

Si le traitement de données est réglementé, il n’est pas illégal, et on peut tirer un grand bénéfice des données récoltables légalement à travers Google Analytics. Pour cela il faut d'abord prendre connaissance du RGPD dans sa totalité (cet article n’étant qu’une introduction au sujet), identifier les données intéressantes, puis effectuer les 3 étapes de mise en conformité de Google Analytics.

Ces étapes sont détaillées ici :

https://www.cybercite.fr/google-analytics-rgpd.html

L’entreprise propriétaire du site internet doit accepter l’accord de traitement des données, déclarer les administrateurs du traitement des données et en particulier le Délégué à la protection des données (DPO), et configurer le délai de conservation des données.

De plus, Google analytics possède une fonctionnalité qui permet l'anonymisation des adresses IP des visiteurs du site internet.

Guide technique sur l’anonymisation des adresses ip dans Google Analytics : https://support.google.com/analytics/answer/2763052?hl=fr

Comment les données peuvent-elles être exploitées pour booster ses ventes ?

C’est bon, vous avez déployé Google Analytics en conformité avec le RGPD, et vous êtes prêts à utiliser les miracles de la data science pour rendre votre site internet plus attractif en adaptant votre contenu aux comportements des différents groupes de visiteurs que vous avez identifiés. Alors, que faire ?

Identifier des “classes” de visiteurs

Ce que l’on cherche à faire avec Google Analytics, c’est d’identifier des comportements de navigation, et d’arriver à comprendre quels profils vont engager quels comportements. En effet, une telle connaissance permettrait à l’entreprise de savoir à l’avance comment un visiteur de son site va réagir à tel ou tel contenu. C’est un problème de classification, l’une des grandes applications du Machine Learning et de la Data Science.

Il faut donc identifier à l’aide des outils de l’onglet comportement de l’interface de Google Analytics quels sont les classes de visiteurs présents sur le site. Cela dépend de la situation :  on pourrait identifier ces classes par le type de produits consommés, sur les différents besoins en rapport qualité prix, sur les différents budgets… L’idée est que chaque classe de visiteur corresponde à une des offres du site.

Une fois ces classes clairement identifiées, on peut utiliser Google Analytics pour comprendre quels profils de visiteur amène à être catégorisé dans quelle classe.

Établir un modèle de classification profil du visiteur -> classe de visiteur

Une première approche peut être d'observer directement le tableau de bord de Google Analytics et d’essayer de corréler manuellement profils et classes. Cela est une solution qui peut fonctionner dans les cas où vos profils utilisateurs sont caractérisés par un nombre faible de features (features = type de données, par exemple, âge, zone géographique...).

Cependant, au moins une base de données possède de features, au moins il sera possible de faire des prédictions fiables. C’est le problème d’underfitting d’un modèle. Cependant, en augmentant le nombre de features, on échappe à ce que le cerveau humain est capable de se représenter (difficile de se représenter mentalement des données à 15 dimensions). Les conclusions qu’un utilisateur de Google Analytics pourrait tirer d’un traitement manuel de telles données seraient fausses ou du moins représenteraient mal la situation réelle. Il convient alors de passer la main à l’ordinateur et de déployer des algorithmes pour déterminer le meilleur modèle associant les profils aux classes (algorithmes de régression par descente de gradient, SVM, perceptron…).

Cependant comme expliqué en première partie, les entreprises traitant des données sont tenues au principe de proportionnalité, et ne doivent traiter que les données nécessaires à la finalité du traitement. Dans les données récoltées, certaines features peuvent être redondantes. Il est par exemple probable que la zone géographique et l’heure de connexion soient fortement corrélées à un besoin de récolter ces deux types de données ? De plus, certaines features peuvent être beaucoup plus représentatives que d’autres. L’âge est sûrement un facteur plus différenciateur que le sexe des visiteurs du site internet. Pour trouver quelles sont les features nécessaires au traitement, on peut réaliser une analyse en composante principale (PCA) des données.

Exploiter le modèle

Une fois le modèle établit, on peut alors mettre en place un système de classifications des visiteurs du site, et leur proposer du contenu et des pages adaptés à leur classe. En fonction de la précision du modèle et de la pertinence des classes choisies par l’entreprise, ce modèle peut-être plus ou moins efficace. Il convient alors d’ajuster le poids qu’aura ses prédictions sur le contenu qui va être proposé aux visiteurs, et là où il convient d’introduire un peu d’aléatoire.

À vous de jouer !

L’intérêt de l’utilisation de Google Analytics et de l’exploitation des données récoltées est mis en évidence par les outils de ce service. Les applications commerciales qui en sont faites sont très intéressantes pour chaque entreprise désirant augmenter non seulement les interactions mais aussi les ventes sur son site. Cependant, le déploiement d’une telle technologie nécessite une importante réflexion en amont pour pouvoir s’accorder avec le RGPD et permettre des prédictions fiables.

David Voge