Comment Blablacar économise un million d'euros par an sur la modération de contenu avec VertexAI

A l'occasion d'une conférence donnée au salon Big Data & AI à Paris, Raphaël Berly, data scientist chez Blablacar, est revenu sur un projet de taille : internaliser la modération de contenu. Pointant du doigt certaines barrières installées suite à cette sous-traitance - coûts élevés, absence de métriques - une équipe s'est donc appliquée à développer un outil capable de catégoriser les contenus publics et privés publiés sur la plateforme de covoiturage. Retour sur les étapes de développement et les suites données à ce projet.

Célia Séramour

Publié le 31 octobre 2025 à 17h05

En 2024, l'application Blablacar a permis à 23,8 millions de passagers de voyager dans 21 pays. Historiquement placée sur le marché de la voiture, l'entreprise a en 2018 développé une stratégie multimodale, intégrant progressivement les bus et les trains, devenant opérateur en France et agrégateur dans les autres pays du monde. Mais, sur son coeur de métier, à savoir les trajets en voiture partagés, la plateforme repose sur les interactions entre membres : publication d'un trajet, description de celui-ci, et notation des membres. En arrière-plan, pourtant, les choses sont plus corsées qu'elles n'y paraissent.

Raphaël Berly, senior data scientist et data science lead chez BlablaCar, explique que l'entreprise dans laquelle il est arrivé il y a un peu moins de 7 ans maintenant, cherchait à internaliser son système de modération de contenu. Il est donc revenu, à l'occasion d'une conférence, sur ce sujet et les défis rencontrés.

"Nous avons deux types de contenus texte : les messages (dits unit message, à forte contrainte de latence) et les contenus publics dits persistants (comme par exemple les biographies de chacun ou les restrictions de trajet). Et c'est sur ces contenus là que nous allons venir appliquer la modération de texte", expose-t-il. Deux types de contenus sont modérés sur la plateforme : les contenus offensif (insultes) et les tentatives de bypass (communication de numéros de téléphone ou arnaques à l'aide de liens frauduleux).

Un sous-traitant aux résultats opaques

Ce data scientist pose très vite les bases du problème : "Jusqu'à tout récemment, Blablacar sous-traitait la modération de texte et nous n'étions pas satisfaits des résultats". Au rang des insatisfactions, le prix d'abord : "C'était très cher, c'est-à-dire 1,2 million d'euros par an, un chiffre voué à croître au vu de la croissance que connaît la plateforme dans certains pays comme le Brésil et l'Inde", précise Raphaël Berly. A cela s'ajoutaient une opacité complète sur la performance du système de modération, avec une absence totale de métrique et de transparence.

"J'ai également constaté que l'entreprise à laquelle on sous-traitait n'utilisait pas les dernières technologies, notamment les LLM, et se basait sur un mix de listes de mots clés et de revues manuelles. Quand vous êtes dans 21 pays, avec des langues différentes donc, et que vous opérez ces listes de mots clé depuis un certain temps, elles s'allongent et sont de plus en plus chères à maintenir, ce qui explique en partie le coût élevé du système utilisé jusqu'à récemment", poursuit ce data scientist.

Sphinx, l'outil de modération développé en interne

Blablacar s'est donc tourné vers ses propres équipes pour développer un outil adapté et ainsi internaliser la modération de texte. Un projet qui a pris environ un an, depuis la création du pipeline de mesures servant à la modération jusqu'à la mise e place de l'outil final pour modérer les messages. Baptisé Sphinx, ce projet a mobilisé 5 à 6 personnes à mi-temps, les équipes de Blablacar travaillant simultanément sur plusieurs projets afin d'ajuster au mieux les ressources en fonction des besoins.

Raphaël Berly explique qu'un premier travail de tri des messages a été fait : "Nous avons séparé les contenus publics des messages qui ont des contraintes différentes". S'en est donc suivi la création de ce pipeline de mesure de la performance afin d'être capable de mesurer la performance objective d'un outil de modération. A la suite de cela, l'équipe chargée du projet a été capable de dire que l'outil développé était plus précis et plus adaptable. "Si une règle de modération change dans un pays, notre solution est by design plus facilement adaptable".

S'adapter aux marchés locaux

Sphinx est en effet un outil qui prend en entrée un groupe de texte et qui en ressort un label, une catégorie, mais ne prend pas de décision. Cela permet d'être beaucoup plus robuste au changement de politique de modération de contenu, la responsabilité de la décision restant chez le client.

Prenant l'exemple d'un membre qui demande à d'autres membres de payer plus pour son trajet car Blablacar ne laisse pas mettre un trajet assez cher, Raphaël Berly précise qu'"en pratique, nous sommes assez réglementés, nous n'avons pas le droit de laisser les membres mettre un certain prix. C'est donc un message que nous allons vouloir modérer. Dans le cas présent, Sphinx ne va pas dire "Refuse", il va dire "Price increase". On catégorise le contenu et c'est au client de dire "Ah, on est dans la marketplace France, c'est interdit de faire une price increase sur ce marché-là, donc je refuse".

1,2 million d'euros économisés au bas mot

Mais, le plus important pour Blablacar était de réduire les coûts. "Nous avons réussi à faire économiser à l'entreprise plus d'un million d'euros par an. Des coûts qui étaient voués à augmenter avec le temps, avec la croissance de la plateforme. Mais en réalité, c'est même une sous-estimation de l'apport de Sphinx", commente Raphaël Berly.

Et c'est grâce au choix d'architecture que l'entreprise a pu faire des économies de taille. "Nous utilisons un embedding model pour l'interprétation du texte qui n'est autre que la première étape. Un des avantages des embeddings récents, c'est qu'ils sont souvent multilingues. Quand on opère dans 21 pays, c'est intéressant d'avoir un modèle qu'on applique à toutes les plateformes. Et c'est économique", ajoute le responsable du projet.

Dans le cas présent, Blablacar utilise Gecko, l'API d'embedding de Google, "qui coûte environ 250 fois moins cher que l'outil de modération utilisé précédemment". Le modèle lui-même n'est autre que Qwen, un modèle open source d'Alibaba, déployé sur des endpoints Vertex AI. A cet embedding, Raphaël Berly explique qu'un adaptateur (un algorithme de machine learning) a été créé afin de transformer cette interprétation de texte en catégorie et ainsi automatiser la prise de décision.

Un outil générique capable de traiter d'autres contenus

Pour Raphaël Berly, ce système d'automatisation ramène à "ce que Blablacar sait très bien faire : du ML en production". L'IA générative a notamment été embarquée dans ce projet de développement de Sphinx. Les équipes ont notamment fait appel à l'IA générative pour créer des datasets synthétiques pour les cas graves à modérer. "Gemini a été utilisé pour générer plus d'exemples synthétiques, mais réalistes, insérés dans le jeu de données d'entrainement pour être sur que le modèle soit résilient à ces cas graves".

Si aujourd'hui plusieurs centaines d'éléments sont revus chaque jour, Raphaël Berly explique que le "template" (modèle) Sphinx créé est très générique et peut bénéficier à d'autres cas d'usage, notamment dans le cas de la détection de fraude. "C'est un template qui permet d'automatiser la prise de décision sur la base de contenus non structurés. En l'occurrence, du texte, mais cela peut fonctionner avec des images, des vidéos, etc. Rien de ce que nous avons construit n'est spécifique à la modération", conclut-il.