Dans notre  premier article, nous avons découvert ce qu’est le clustering et en quoi il peut être utile pour mieux segmenter ses données, notamment en marketing.

Dans le deuxième article, nous avons expliqué comment mettre en place une démarche de Clustering. Dans cette troisième partie, nous allons présenter un cas d’usage concret dans le secteur du tourisme, expliquer des visualisations issues de notre modèle et aborder quelques aspects opérationnels.

Rappel : qu’est-ce que le clustering ?

Le clustering est une méthode d’apprentissage non supervisé qui regroupe des objets similaires dans des groupes appelés clusters. En marketing, cela permet de mieux comprendre vos clients, d’adapter les campagnes, et de personnaliser l’expérience.

Segmenter les comportements d’achat dans le tourisme

Dans un marché concurrentiel comme celui du voyage, comprendre quand et comment les clients réservent leurs séjours est un enjeu majeur pour adapter le plan de communication, optimiser les recommandations ou encore anticiper les pics d’activité.

À partir de données de réservation issues d’un acteur du tourisme, comportant notamment la date d’achat, la date de départ, la durée, le prix, etc., mais aussi les données issues du comportement en ligne grâce à notre module de Web Analytics; nous avons cherché à regrouper les clients selon leurs comportements d’achat :

  • Réservent-ils longtemps à l’avance ou à la dernière minute ?
  • Partent-ils plutôt en été ou hors saison ?
  • Achètent-ils en semaine ou le week-end ?
  • Préfèrent-ils des séjours courts ou longs ?

Pour identifier des profils types de clients selon leurs habitudes de réservation, nous avons appliqué une méthode de clustering, afin de découvrir des segments de clients homogènes dans leur comportement d’achat.

L’approche suivie reprend le pipeline détaillé dans notre article précédent: nettoyage des données, création de variables clés, choix de l’algorithme et interprétation des clusters obtenus.

Des comportements d’achat saisonniers ?

Dans l’exemple que nous allons présenter (inspiré en partie d’un cas client), nous avons identifié quatre clusters reflétant des comportements de réservation différenciés.

La saisonnalité est un facteur déterminant dans l’achat de voyages. Nous avons donc commencé par observer quand, dans l’année, les différents groupes identifiés réservent leurs séjours.

La heatmap ci-dessous permet de visualiser ces tendances.

On y observe des dynamiques saisonnières très contrastées :

  • Cluster 0 : achats concentrés en janvier et février, typiques d’une clientèle qui anticipe ses vacances longtemps à l’avance.
  • Cluster 1 : pic marqué en juillet, indiquant des comportements d’achat de dernière minute.
  • Cluster 2 : une forte activité au printemps et début d’été (avril à juin), correspondant probablement à des séjours estivaux.
  • Cluster 3 : concentration des achats sur les mois de septembre et octobre, révélateurs de voyages en basse saison.

 

Variables explicatives : ce qui différencie les profils

Avant d’attribuer un label à chaque cluster, il faut comprendre ce qui les distingue sur le plan comportemental. Pour cela, nous avons utilisé une visualisation en radar, qui permet de comparer les groupes selon les variables clés comme: nombre de jours d’anticipation, saison d’achat, durée, prix, type de séjour, ou encore région choisie.

 

Data Critère analyse Clustering

Voici les quatre typologies que nous avons identifiées :

  • Cluster 0: très fort score sur les jours d’avance. Réservations en automne et en hiver, pour des séjours longs et coûteux. Ce sont des voyageurs qui anticipent tôt leur séjour estival.
  • Cluster 1: réservation tardive, souvent juste avant le départ. Séjours courts, sur un week-end. Comportement sensible à la disponibilité.
  • Cluster 2: réservation modérée pendant la saison estivale. Durée moyenne, prix intermédiaire. Ce segment reflète souvent des familles ou des actifs prenant leurs congés en été.
  • Cluster 3: réservation en automne pour une durée et un prix modérés. Ces voyageurs cherchent à éviter les foules, à profiter de tarifs plus avantageux, ou à voyager en dehors des périodes classiques.

On peut également enrichir l’analyse en intégrant d’autres dimensions, selone leur disponibilité, telles que: le canal d’achat (site web, téléphone mobile), la fréquence de voyage sur l’année, l’historique du panier moyen, etc.

L’ajout de variables pertinentes permet d’enrichir l’analyse et de rendre les segments plus représentatifs et plus utiles pour activer des actions marketing ciblées.

Interprétation des Clusters

  • Le graphe radar des variables comportementales met en évidence les différences sur des critères clés comme l’anticipation, la durée, le prix ou la saison. La heatmap des réservations par mois montre quand chaque segment effectue ses achats.En croisant ces deux visualisations, nous avons affiné l’interprétation métier de chaque cluster:
    • Cluster 0 / Planification anticipée: Score très élevé sur jours_avance, achats dès janvier/février, séjours longs souvent en été ou en hiver.
    • Cluster 1 / Achat dernière minute: réservations concentrées en juillet, séjours courts sur week-ends.
    • Cluster 2 / Voyage en été: réservation modérée en mai et juin, durée moyenne, saisonnalité estivale.
    • Cluster 3 / Voyage hors saison: achats en septembre et octobre, durée plus longue, prix modérés.

 

Chaque cluster devient un segment actionnable, autour duquel on peut activer des campagnes et personnaliser les offres. Par exemple:

  • Planification anticipée : réservation souvent en début d’année, pour des séjours longs.
    • Actions recommandées :
      • Mise en avant des disponibilités étendues et options de personnalisation (vols directs, chambre avec vue, etc.)
      • Campagnes de communication dès janvier
      • Intégration dans une stratégie de fidélisation premium
  • Achat dernière minute: décision rapide, souvent en juillet, pour un départ immédiat sur un week-end.
    • Actions recommandées :
      • Mise en avant de séjours courts, accessibles et disponibles immédiatement
      • Push notification ou emailing avec offres flash 48h ou départs ce week-end

Ces visualisations (heatmap, radar) ne sont que des exemples parmi d’autres outils possibles pour explorer les comportements d’achats. D’autres graphiques peuvent aussi révéler des motifs plus subtils et affiner encore l’interprétation des clusters.

On en parle plus en détail dans la vidéo de notre webinaire dédié au clustering appliqué au marketing. Stay tuned !

De l’analyse à la production : déploiement et suivi du modèle

Une fois les clusters identifiés, l’étape suivante consiste à déployer le modèle dans un environnement opérationnel afin de l’utiliser dans les campagnes marketing et les tableaux de bord CRM.

Déploiement dans la plateforme SmartProfile

Chez Smartprofile, les clusters sont intégrés directement dans notre plateforme de marketing distribué. Concrètement, ces segments sont :

  • Synchronisés dans le moteur de segmentation de la plateforme et mis à disposition des utilisateurs pour les aider à cibler efficacement leurs campagnes.
  • Activables via les campagnes planifiées: un utilisateur peut par exemple choisir d’envoyer une offre spéciale aux « acheteurs dernière minute » ou de planifier une campagne pour les profils « planificateurs ».
  • Visualisables dans les tableaux de bord : l’utilisateur peut consulter la répartition de ses contacts par segment comportemental, suivre leur évolution, et ajuster ses messages en fonction.
  • Utilisables dans des scénarios d’automatisation : par exemple, dès qu’un client montre un comportement typique d’un segment, on peut automatiquement l’inscrire à une séquence email ou SMS adaptée à ce profil.

Suivi du drift comportemental

Avec le temps, certains comportements clients peuvent évoluer. Par exemple, un segment initialement identifié comme « acheteur de dernière minute » peut anticiper davantage ses réservations. De nouveaux comportements peuvent aussi apparaître, qui ne rentrent plus dans les segments existants. C’est pourquoi il est essentiel de surveiller régulièrement la pertinence du modèle. On parle alors de drift : cela désigne le fait que les données actuelles ne correspondent plus à celles sur lesquelles le modèle a été entraîné. La segmentation pourrait devenir moins fiable ou moins représentative. Pour détecter ces évolutions, certains indicateurs sont particulièrement utiles :

  • Un segment devient-il trop dominant ou disparaît-il ?
  • Les clusters restent-ils bien séparés ?
  • Les distributions des variables clés changent-elles ? etc.

Pour garantir la robustesse du modèle, il est important de réentraîner le modèle régulièrement en réintégrant les nouvelles données de réservation. Nous recommandons un réentraînement tous les 3 à 6 mois, selon la fréquence des achats et les variations saisonnières du secteur d’activité.

Cela permet d’intégrer les nouveaux comportements observés récemment, comme l’émergence d’un nouveau type de voyageur ou une tendance à réserver différemment et de corriger les dérives du modèle.

Ce qu’il faut retenir

  • Comprendre les comportements des clients permet d’activer des campagnes plus pertinentes, au bon moment, sur le bon canal.
  • Les visualisations (heatmap, radar, etc.) sont des outils puissants qui offrent une lecture intuitive des segments clients, aidant à mieux comprendre leurs comportements et à adapter les actions marketing.
  • Pour garantir la performance, il est essentiel de surveiller l’évolution des comportements et de réentraîner le modèle régulièrement.

Article rédigé par Ibtihal El Mimouni – Data Scientist chez Smartprofile en cours de thèse CIFRE sur les enjeux de l’IA pour un marketing plus responsable

Vos données ont du potentiel ! Contactez nos équipes pour vous accompagner dans la structuration d’une approche adaptée à vos enjeux marketing.

References

  • [1] MacQueen, J. (1967). “Some methods for classification and analysis of multivariate observations”. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Statistics (Vol. 5, pp. 281-298). University of California press.
  • [2] Rdusseeun, L. K. P. J., & Kaufman, P. (1987). “Clustering by means of medoids”. In Proceedings of the statistical data analysis based on the L1 norm conference, neuchatel, switzerland (Vol. 31, p. 28).
  • [3] Ng, R. T., & Han, J. (2002). “CLARANS: A method for clustering objects for spatial data mining”. IEEE transactions on knowledge and data engineering, 14(5), 1003-1016.
  • [4] Zhang, T., Ramakrishnan, R., & Livny, M. (1996). “BIRCH: an efficient data clustering method for very large databases”. ACM sigmod record, 25(2), 103-114.
  • [5] Kaufman, L., & Rousseeuw, P. J. (2009). ”Finding groups in data: an introduction to cluster analysis”. John Wiley & Sons.
  • [6] Ester, M., Kriegel, H. P., Sander, J., & Xu, X. (1996). “A density-based algorithm for discovering clusters in large spatial databases with noise”. In KDD (Vol. 96, No. 34, pp. 226-231).
  • [7] Ankerst, M., Breunig, M. M., Kriegel, H. P., & Sander, J. (1999). OPTICS: “Ordering points to identify the clustering structure”. ACM Sigmod record, 28(2), 49-60
  • [8] Campello, R. J., Moulavi, D., & Sander, J. (2013). “Density-based clustering based on hierarchical density estimates”. In Pacific-Asia conference on knowledge discovery and data mining (pp. 160-172). Berlin, Heidelberg: Springer Berlin Heidelberg.

Process the potential of your data
et prenez les bonnes décisions pour passer à l’action.

Vous aimerez également