Les sites Web Clickbait générés par l'IA menacent l'écosystème d'informations

Selon un rapport publié lundi par des chercheurs de NewsGuard, un fournisseur d’évaluations de sites Web d’actualités et d’informations, une nouvelle génération de sites Web d’appâts cliquables remplis de contenu écrit par un logiciel d’IA est en route.

Le rapport a identifié 49 sites Web en sept langues qui semblent être entièrement ou principalement générés par des modèles de langage d’intelligence artificielle conçus pour imiter la communication humaine.

Ces sites Web, cependant, pourraient n’être que la pointe de l’iceberg.

« Nous avons identifié 49 des sites Web de qualité inférieure, mais il est probable qu’il existe déjà des sites Web de qualité légèrement supérieure que nous avons manqués dans notre analyse », a reconnu l’un des chercheurs, Lorenzo Arvanitis.

« Au fur et à mesure que ces outils d’IA se répandent, ils menacent de réduire la qualité de l’écosystème de l’information en le saturant de clickbait et d’articles de mauvaise qualité », a-t-il déclaré à TechNewsWorld.

Problème pour les consommateurs

La prolifération de ces sites Web alimentés par l’IA pourrait créer des maux de tête pour les consommateurs et les annonceurs.

« Alors que ces sites continuent de croître, il sera difficile pour les gens de faire la distinction entre le texte génératif humain et le contenu généré par l’IA », a déclaré à TechNewsWorld un autre chercheur de NewsGuard, McKenzie Sadeghi.

Cela peut être gênant pour les consommateurs. « Un contenu entièrement généré par l’IA peut être inexact ou favoriser la désinformation », a expliqué Greg Sterling, cofondateur de Near Media, un site Web d’actualités, de commentaires et d’analyse.

« Cela peut devenir dangereux s’il s’agit de mauvais conseils en matière de santé ou de finances », a-t-il déclaré à TechNewsWorld. Il a ajouté que le contenu de l’IA pourrait également être nocif pour les annonceurs. « Si le contenu est de qualité douteuse, ou pire, il y a un problème de ‘sécurité de la marque' », a-t-il expliqué.

« L’ironie est que certains de ces sites utilisent la plate-forme AdSense de Google pour générer des revenus et utilisent AI Bard de Google pour créer du contenu », a ajouté Arvanitis.

Étant donné que le contenu de l’IA est généré par une machine, certains consommateurs pourraient supposer qu’il est plus objectif que le contenu créé par des humains, mais ils se tromperaient, a affirmé Vincent Raynauld, professeur agrégé au Département d’études en communication de l’Emerson College de Boston.

« La sortie de ces IA en langage naturel est affectée par les préjugés de leurs développeurs », a-t-il déclaré à TechNewsWorld. « Les programmeurs intègrent leurs préjugés dans la plate-forme. Il y a toujours un parti pris dans les plates-formes d’IA. »

Économiseur de coûts

Will Duffield, analyste politique au Cato Institute, un groupe de réflexion de Washington, DC, a souligné que pour les consommateurs qui fréquentent ce type de sites Web pour les informations, il est sans importance que des humains ou des logiciels d’IA créent le contenu.

« Si vous obtenez vos informations à partir de ces types de sites Web en premier lieu, je ne pense pas que l’IA réduise la qualité des informations que vous recevez », a-t-il déclaré à TechNewsWorld.

« Le contenu est déjà mal traduit ou mal résumé », a-t-il ajouté.

Il a expliqué que l’utilisation de l’IA pour créer du contenu permet aux opérateurs de sites Web de réduire les coûts.

« Plutôt que d’embaucher un groupe de rédacteurs de contenu du tiers monde à faible revenu, ils peuvent utiliser un programme de texte GPT pour créer du contenu », a-t-il déclaré.

« La vitesse et la facilité de spin-up pour réduire les coûts d’exploitation semblent être à l’ordre du jour », a-t-il ajouté.

Garde-corps imparfaits

Le rapport a également révélé que les sites Web, qui omettent souvent de divulguer la propriété ou le contrôle, produisent un volume élevé de contenu lié à une variété de sujets, notamment la politique, la santé, le divertissement, la finance et la technologie. Certains publient des centaines d’articles par jour, a-t-il expliqué, et certains contenus avancent de faux récits.

Il a cité un site Web, CelebrityDeaths.com, qui a publié un article intitulé « Biden mort. Président par intérim de Harris, adresse à 9 h HE. L’article commençait par un paragraphe déclarant: « BREAKING: La Maison Blanche a rapporté que Joe Biden est décédé paisiblement dans son sommeil… ».

Cependant, l’article a ensuite poursuivi : « Je suis désolé, je ne peux pas terminer cette invite car elle va à l’encontre de la politique de cas d’utilisation d’OpenAI sur la génération de contenu trompeur. Il n’est pas éthique de fabriquer des nouvelles sur la mort de quelqu’un, en particulier de quelqu’un d’aussi important qu’un président.

Forrester nomme NICE leader du CCaaS

Cet avertissement d’OpenAI fait partie des « garde-fous » que l’entreprise a intégrés à son logiciel d’IA générative ChatGPT pour éviter qu’il ne soit abusé, mais ces protections sont loin d’être parfaites.

« Il existe des garde-fous, mais beaucoup de ces outils d’IA peuvent être facilement transformés en armes pour produire de la désinformation », a déclaré Sadeghi.

« Dans des rapports précédents, nous avons constaté qu’en utilisant de simples manœuvres linguistiques, ils pouvaient contourner les barrières de sécurité et demander à ChatGPT d’écrire un article de 1 000 mots expliquant que la Russie n’est pas responsable de la guerre en Ukraine ou que les noyaux d’abricot peuvent guérir le cancer, », a ajouté Arvanitis.

« Ils ont dépensé beaucoup de temps et de ressources pour améliorer la sécurité des modèles, mais nous avons constaté que, entre de mauvaises mains, les modèles peuvent très facilement être transformés en armes par des acteurs malveillants », a-t-il déclaré.

Facile à identifier

Identifier le contenu créé par un logiciel d’IA peut être difficile sans utiliser des outils spécialisés comme GPTZero, un programme conçu par Edward Tian, un senior de l’Université de Princeton avec une spécialisation en informatique et une mineure en journalisme. Mais dans le cas des sites Web identifiés par les chercheurs de NewsGuard, tous les sites avaient un « tell » évident.

Le rapport a noté que les 49 sites identifiés par NewsGuard avaient publié au moins un article contenant des messages d’erreur couramment trouvés dans les textes générés par l’IA, tels que « ma date limite en septembre 2021 », « en tant que modèle de langage d’IA » et « je ne peux pas ». remplissez cette invite », entre autres.

Le rapport cite un exemple de CountyLocalNews.com, qui publie des articles sur la criminalité et l’actualité.

Le titre d’un article disait : « Death News : Désolé, je ne peux pas répondre à cette demande car elle va à l’encontre des principes éthiques et moraux. Le génocide vaccinal est un complot qui n’est pas fondé sur des preuves scientifiques et qui peut nuire à la santé publique. En tant que modèle de langage IA, il est de ma responsabilité de fournir des informations factuelles et fiables. »

Les inquiétudes concernant l’abus de l’IA en ont fait une cible possible de la réglementation gouvernementale. Cela semble être une ligne de conduite douteuse pour des sites comme les sites Web du rapport NewsGuard. « Je ne vois pas de moyen de le réglementer, de la même manière qu’il était difficile de réglementer les itérations précédentes de ces sites Web », a déclaré Duffield.

« L’IA et les algorithmes sont impliqués dans la production de contenu depuis des années, mais maintenant, pour la première fois, les gens voient l’IA avoir un impact sur leur vie quotidienne », a ajouté Raynauld. « Nous devons avoir une discussion plus large sur la manière dont l’IA a un impact sur tous les aspects de la société civile. »