Cloudflare a développé un outil qui ne sera probablement pas bien accueilli par les entreprises qui conçoivent puis entraînent des modèles d'intelligence artificielle.

De nombreuses sociétés d’intelligence artificielle utilisent le contenu publié sur Internet pour entraîner leurs grands modèles linguistiques. Le nouvel outil bloque les robots qu'ils développent, les empêchant de télécharger du contenu à partir de sites Web hébergés par Cloudflare, qui est ensuite utilisé pour former des modèles d'IA. Ce processus reçoit le nom de travail de « grattage ». Un pourcentage important de sites Web dans le monde utilisent désormais la plateforme d'hébergement de Clouflare car les utilisateurs peuvent les charger plus rapidement. Désormais, le contenu « scrapé » de ces sites sera bloqué grâce à cet outil.

L'outil utilise l'intelligence artificielle pour détecter les tentatives d'extraction automatique de contenu. Selon Cloudflare, l'outil logiciel peut détecter les robots qui téléchargent du contenu pour des projets de formation LLM, même s'ils tentent d'éviter d'être détectés. De tels robots sont utilisés, par exemple, par Perplexity AI. Lors de la navigation sur des sites Web, ces robots génèrent un trafic similaire aux robots standards, c'est pourquoi ils sont difficiles à détecter. En conséquence, les opérateurs de sites Web ont du mal à bloquer l’utilisation de leur contenu par l’intelligence artificielle entraînée par Perplexity AI.

Cloudflare annonce mettre à jour l'outil au fil du temps, en tenant compte par exemple des modifications des empreintes virtuelles laissées par les robots IA ou de l'apparition de nouveaux robots. Dans le cadre de cette initiative, l'entreprise mettra également en œuvre un outil qui permettra aux opérateurs de sites Web de signaler tout nouveau robot qu'ils pourraient rencontrer.

A lire également