Le clustering [1] est une méthode d’apprentissage automatique non supervisé visant à regrouper des objets ou observations similaires sans connaissance préalable des classes ou catégories auxquelles ils appartiennent. L’objectif est de découvrir des structures cachées dans les données.
Pour bien découvrir les concepts qui se cachent derrière ce terme mais aussi des cas concrets, retrouver les notions clés au travers d’une suite de 3 articles dont voici le premier!
Analogie
Imaginez que vous avez un grand sac de fruits mélangés : pommes, bananes, oranges, kiwis, etc. , mais vous ne savez ni combien de variétés vous avez, ni combien il y en a de chaque type. Votre mission ? Trier en groupes homogènes les fruits selon leur forme, leur couleur, leur taille ou leur poids.
C’est exactement ce que fait un algorithme de clustering. Il analyse les objets (ici, les fruits) en fonction de leurs attributs, et les regroupe selon leur similarité, “sans que personne ne lui dise” à l’avance à quoi correspond chaque groupe. On parle d’apprentissage non supervisé: il n’y a pas d’étiquette prédéfinie. Le modèle n’a pas besoin de savoir ce qu’est une « pomme » ou une « banane ». Il ne connaît que les caractéristiques ou features disponibles (poids, couleur, taille, etc.), comme un œil découvrant ces fruits pour la première fois. Son rôle est de détecter automatiquement les structures sous-jacentes dans l’ensemble des données et regrouper des éléments similaires entre eux.
Le clustering est utilisé dans diverses industries
Le clustering est aujourd’hui utilisé dans de nombreux secteurs confrontés à des volumes massifs de données, souvent hétérogènes, non labelisées et complexes. Il permet de structurer ces données brutes en faisant émerger des groupes cohérents (clusters), qui reflètent des similarités sous- jacentes et qui sont difficiles à distinguer par une simple observation.
Dans le domaine médical, le clustering est utilisé par exemple pour distinguer des phénotypes de patients à partir de données cliniques. Ahlqvist et al. [2] ont appliqué le clustering à un ensemble de données sur le diabète de type 2 pour révéler cinq groupes/clusters distincts, avec des profils de complications et de réponses au traitement différents.
En finance, le clustering est notamment utilisé pour la détection de fraude en repérant des transactions anormales qui ne correspondent pas aux comportements typiques. Min, et al. [3] proposent une méthode de clustering pour détecter les fraudes en analysant les séquences de clics sur les interfaces numériques, par exemple: les pages visitées, l’ordre des actions réalisées lors de la
navigation sur une application bancaire ou un site e-commerce.
Le clustering au service du marketing digital
Le clustering est un levier puissant pour optimiser les stratégies marketing. Il permet aux entreprises de mieux comprendre les interactions de leurs clients. Punj et Stewart [4] ont réalisé un état de l’art approfondi des méthodes de clustering appliquées au marketing.
Segmentation client
Traditionnellement, la segmentation client repose sur des critères démographiques ou transactionnels, mais ces méthodes peuvent être longues et rigides. Le clustering, en revanche, automatise et enrichit cette segmentation. On l’utilise souvent pour identifier des audiences similaires à un groupe de référence (clients existants, abonnés, utilisateurs actifs, etc.). Cela repose sur l’idée que : « Les individus qui se ressemblent consomment de la même manière. » Par exemple, un site e-commerce peut détecter des « chasseurs de promotions », des « fidèles récurrents », ou des « clients saisonniers ».
Les clusters deviennent alors une grille d’analyse que l’on peut projeter sur de nouvelles audiences pour anticiper leur potentiel de conversion.
On peut créer des segments basés sur le comportement, tels que l’historique d’achat, la fréquence de visite ou de commande, la réactivité aux campagnes, etc. Ou bien selon des données sociodémographiques comme l’âge, le genre, la localisation, etc.
Mais c’est souvent la combinaison de ces deux types de données qui donne les résultats les plus pertinents. Plus on dispose de données, plus la segmentation est efficace.
Personnalisation du contenu
Ces segments générés automatiquement permettent de mettre en place des actions marketing plus ciblées, notamment en adaptant dynamiquement les offres (produits, services), les visuels ou le contenu du message, le canal de communication (email, push, SMS, réseaux sociaux), etc.
Optimisation de campagnes publicitaires
Le clustering permet aussi d’optimiser les campagnes média en identifiant les créas les plus performants pour chaque cluster. Il peut également être couplé à des tests A/B pour affiner davantage les performances. Par exemple, on peut tester plusieurs variantes d’un message publicitaire au sein d’un même cluster, ou comparer les réactions entre différents clusters, afin de mieux comprendre ce qui fonctionne pour chaque type de profil.
Détection de churn
En analysant les trajectoires des utilisateurs comme la baisse de fréquence d’achat, des interactions, et des visites, le clustering permet d’identifier des schémas de désengagement, de repérer les signaux faibles avant que l’utilisateur n’abandonne pour déclencher des actions correctives telles qu’une offre personnalisée ou une relance proactive par email.
Vous souhaitez aller plus loin ?
Si vous souhaitez passer à l’action et mettre en œuvre du Clustering, vous trouverez ci-dessous la formulation mathématique !
Considérons un ensemble de données X = {x_1, x_2, …, x_n}, où chaque point ![]()
est une observation dans un espace vectoriel de dimension d. Le but du clustering
est de partitionner cet ensemble en K groupes (ou clusters) C = {C_1, C_2,…, C_K}, tels
que :
- chaque observation appartient à un seul cluster :

- l’union de tous les clusters recouvre l’ensemble des points :

- les points au sein d’un cluster sont plus « proches » entre eux qu’avec ceux des autres clusters,
selon une fonction de distance ou de similarité d(.,.).
Si c’est un peu complexe, n’hésitez pas à faire appel à une équipe d’expert pour vous accompagner
dans votre projet. Les équipes de Smartprofile déploie des algorithmes de Clustering sur mesure pour
leurs utilisateurs !
Ce qu’il faut retenir
- Le clustering est une méthode d’apprentissage non supervisé
- C’est un outil clé pour découvrir des patterns cachés dans les données
- Ses applications dans le marketing digital sont nombreuses et en forte croissance
Dans notre prochain article, nous verrons comment implémenter un algorithme de clustering et l’intégrer dans un pipeline de production. Vous souhaitez segmenter vos audiences avec précision ? Contactez-nous pour une démo de notre
solution Smartprofile.
Article rédigé par Ibtihal El Mimouni – Data Scientist chez Smartprofile en cours de thèse CIFRE sur les enjeux de l’IA pour un marketing plus responsable
Références :
[1] Rokach, L., & Maimon, O. (2005). Clustering methods. Data mining and knowledgediscovery handbook, 321-352. [2] Ahlqvist, E. et al. (2018). “Novel subgroups of adult-onset diabetes and their association
with outcomes: a data-driven cluster analysis of six variables.” The lancet Diabetes &
endocrinology, 6(5), 361-369. [3] Wei Min, Weiming Liang, Hang Yin, Zhurong Wang, Mei Li, Alok Lal (2021). “Explainable
Deep Behavioral Sequence Clustering for Transaction Fraud Detection.” CoRR abs/2101.04285 [4] Punj, G., & Stewart, D. W. (1983). “Cluster analysis in marketing research: Review and
suggestions for application.” Journal of marketing research, 20(2), 134-148.


