Se présentant comme un "bouton facile pour bloquer tous les robots d'intelligence artificielle", l'outil développé par Cloudflare pourrait bien faire fureur auprès des clients du spécialiste de CDN. Ces derniers mois, l'explosion de solutions d'IA générative a ouvert la boîte de Pandore à des mauvais usages et au développement d'outils malveillants alimentés par l'IA.
Pour lutter contre les bots, scrapers et crawlers, Cloudflare s'est mis en ordre de marche l'année dernière en proposant à ses clients de bloquer facilement les robots d'IA en s'attaquant aux plus simples. Il s'agit de ceux qui respectent le fichier robots.txt et n'utilisent pas de contenu sans licence pour entraîner leurs modèles ou exécuter des inférences pour des applications RAG utilisant des données de sites web. Aujourd'hui, les clients de la firme américaine peuvent bénéficier d'une autre fonction permettant de bloquer tous les robots en un seul clic.
Une fonction mise à jour pour s'adapter aux évolutions des bots
Cette fonction est disponible pour tous les clients, y compris ceux de la version gratuite. Pour l'activer, il suffit de se rendre dans la section Sécurité > Bots du tableau de bord de Cloudflare, et de cliquer sur la bascule intitulée AI Scrapers and Crawlers.

La firme indique que sa fonction sera automatiquement mise à jour au fur et à mesure que de nouvelles empreintes digitales de bots dits "délinquants" seront identifiées comme étant des moteurs de recherche sur le web pour l'entraînement de modèles. Pour en arriver là, l'équipe qui a planché sur la solution de blocage affirme avoir étudié le trafic sur l'ensemble du réseau afin de comprendre au mieux l'activité des robots d'exploration de l'IA.
Bytespider, numéro un des crawlers d'IA
Dans son inventaire des robots d'IA les plus populaires sur le réseau, Cloudflare pointe du doigt Bytespider, Amazonbot, ClaudeBot et GPTBot comme les quatre principaux crawlers d'IA. Exploité par ByteDance, la société chinoise propriétaire de TikTok, Bytespider serait utilisé pour recueillir des données d'entraînement pour ses grands modèles de langage (LLM), y compris ceux qui soutiennent son rival ChatGPT, Doubao. Amazonbot et ClaudeBot suivent Bytespider en termes de volume de requêtes. Amazonbot, qui serait utilisé pour indexer le contenu des réponses aux questions d'Alexa, a envoyé le deuxième plus grand nombre de requêtes et ClaudeBot, utilisé pour entraîner le robot de conversation Claude, a récemment augmenté son volume de requêtes.
Notons que parmi ces robots, Bytespider arrive en tête non seulement en termes de nombre de demandes, mais aussi en ce qui concerne l'étendue de son exploration des propriétés Internet et la fréquence à laquelle il est bloqué. Il est suivi de près par GPTBot, qui occupe la deuxième place en termes d'exploration et de blocage. GPTBot, géré par OpenAI, recueille des données d'entraînement pour ses LLM, qui sont à la base de produits basés sur l'IA tels que ChatGPT.
Peu ou pas de mesures prises pour contrer les requêtes des robots
Dans un récent rapport daté de juin, Cloudflare indique que les robots d'IA ont accédé à environ 39% du million de sites Internet les mieux classés utilisant sa plateforme, mais que seulement 2,98% de ces sites ont pris des mesures pour bloquer ou contester ces requêtes. En outre, plus une propriété Internet est bien classée (plus populaire), plus elle est susceptible d'être ciblée par des robots d'IA et, par conséquent, plus elle est susceptible de bloquer ces requêtes.
Cela étant dit, les techniques se diversifient pour outrepasser les mesures mises en place. Conscient de ce risque, Cloudflare affirme qu'il continuera à surveiller et à ajouter d'autres blocages de robots à sa règle AI Scrapers and Crawlers et à faire évoluer ses modèles d'apprentissage automatique.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
