Chatbot IA Kinder, Friendlier 'Claude 2' Présenté par Anthropic

Les enveloppes ont été retirées d’un nouveau chatbot AI présenté comme « utile, inoffensif et honnête » mardi par son développeur, Anthropic.

Le chatbot, Claude 2, possède un répertoire familier. Il peut créer des résumés, écrire du code, traduire du texte et effectuer des tâches qui sont devenues de rigueur pour le genre logiciel.

Cette dernière version de l’offre d’IA générative est accessible via une API et via une nouvelle interface Web accessible au public aux États-Unis et au Royaume-Uni. Auparavant, il n’était disponible pour les entreprises que sur demande ou via Slack en tant qu’application.

« Considérez Claude comme un collègue ou un assistant personnel amical et enthousiaste qui peut être instruit en langage naturel pour vous aider dans de nombreuses tâches », a déclaré Anthropic dans un communiqué.

« Anthropic essaie de se pencher sur l’espace des assistants personnels », a observé Will Duffield, analyste politique au Cato Institute, un groupe de réflexion de Washington, DC.

« Alors que Microsoft a une longueur d’avance en apportant Bing à sa suite de productivité, Claude veut être un assistant personnel plus utile que les autres », a-t-il déclaré à TechNewsWorld.

Scores de raisonnement améliorés

Claude 2 est amélioré par rapport aux modèles précédents dans les domaines du codage, des mathématiques et du raisonnement, selon Anthropic.

À la section à choix multiples d’un examen du barreau, par exemple, Claude 2 a obtenu 76,5 %. Les modèles précédents ont obtenu un score de 73,0 %.

Aux examens de lecture et d’écriture du GRE pour les étudiants postulant aux études supérieures, Claude 2 a obtenu un score supérieur au 90e centile. Sur le raisonnement quantitatif, il a fait aussi bien que les candidats médians.

Dans le domaine du codage, Claude 2 a obtenu 71,2 % au test Codex HumanEval, un test de codage Python. C’est une amélioration significative par rapport aux modèles précédents, qui obtenaient un score de 56,0 %.

Cependant, il n’a fait que légèrement mieux que son prédécesseur sur le GSM8K, qui englobe un large éventail de problèmes mathématiques à l’école primaire, accumulant un score de 88,0%, contre 85,2% pour Claude 1.3.

Claude 2 s’est amélioré par rapport à nos modèles précédents sur les évaluations, notamment Codex HumanEval, GSM8K et MMLU. Vous pouvez voir la suite complète d’évaluations dans notre carte modèle : https://t.co/fJ210d9utd pic.twitter.com/LLOuUNfOFV

— Anthropique (@AnthropicAI) 11 juillet 2023

Décalage des connaissances

Anthropique amélioré Claude dans un autre domaine : entrée.

La fenêtre contextuelle de Claude 2 peut gérer jusqu’à 75 000 mots. Cela signifie que Claude peut digérer des centaines de pages de documentation technique ou même un livre. En comparaison, l’entrée maximale de ChatGPT est de 3 000 mots.

Anthropic a ajouté que Claude peut désormais écrire des documents plus longs – des mémos aux lettres en passant par des histoires jusqu’à quelques milliers de mots.

Comme ChatGPT, Claude n’est pas connecté à Internet. Il est formé sur des données qui se terminent brusquement en décembre 2022. Cela lui donne un léger avantage sur ChatGPT, dont les données sont actuellement coupées en septembre 2021 – mais en retard sur Bing et Bard.

« Avec Bing, vous obtenez des résultats de recherche à jour, que vous obtenez également avec Bard », a expliqué Greg Sterling, cofondateur de Near Media, un site Web d’actualités, de commentaires et d’analyses.

Cependant, cela peut avoir un impact limité sur Claude 2. « La plupart des gens ne verront pas de différences majeures à moins d’utiliser toutes ces applications côte à côte », a déclaré Sterling à TechNewsWorld. « Les différences que les gens peuvent percevoir seront principalement dans les interfaces utilisateur. »

Anthropic a également vanté les améliorations de sécurité apportées à Claude 2. Il a expliqué qu’il dispose d’une «équipe rouge» interne qui note ses modèles en fonction d’un large éventail d’invites nuisibles. Les tests sont automatisés, mais les résultats sont régulièrement vérifiés manuellement. Dans sa dernière évaluation, Anthropic a noté que Claude 2 était deux fois meilleur pour donner des réponses inoffensives que Claude 1.3.

En outre, il dispose d’un ensemble de principes appelés constitution intégré au système qui peut tempérer ses réponses sans avoir besoin d’utiliser un modérateur humain.

Tasser le mal

Anthropic n’est pas le seul à essayer d’atténuer les dommages potentiels causés par son logiciel d’IA générative. « Tout le monde travaille sur des IA utiles qui sont censées ne pas nuire, et l’objectif est presque universel », a observé Rob Enderle, président et analyste principal du groupe Enderle, une société de services de conseil à Bend, Ore.

« C’est l’exécution qui variera probablement d’un fournisseur à l’autre », a-t-il déclaré à TechNewsWorld.

Il a noté que les fournisseurs industriels comme Microsoft, Nvidia et IBM ont pris au sérieux la sécurité de l’IA dès leur entrée dans le domaine. « Certaines autres startups semblent plus axées sur le lancement de quelque chose que sur quelque chose de sûr et digne de confiance », a-t-il déclaré.

« Je conteste toujours l’utilisation d’un langage comme inoffensif, car des outils utiles peuvent généralement être mal utilisés d’une manière ou d’une autre pour faire du mal », a ajouté Duffield.

Les tentatives de minimiser les dommages dans un programme d’IA générative pourraient potentiellement avoir un impact sur sa valeur. Cela ne semble pas être le cas avec Claude 2, cependant. « Cela ne semble pas castré au point d’être inutile », a déclaré Duffield.

Conquérir la barrière antibruit

Avoir une IA « honnête » est la clé pour lui faire confiance, a affirmé Enderle. « Avoir une IA nuisible et malhonnête ne nous fait pas beaucoup de bien », a-t-il déclaré. « Mais si nous ne faisons pas confiance à la technologie, nous ne devrions pas l’utiliser. »

« Les IA fonctionnent à des vitesses de machine, et nous ne le faisons pas », a-t-il poursuivi, « elles pourraient donc faire beaucoup plus de dégâts en peu de temps que nous ne serions capables de faire face. »

« L’IA peut inventer des choses qui sont inexactes mais qui semblent plausibles », a ajouté Sterling. « C’est très problématique si les gens s’appuient sur des informations incorrectes. »

« L’IA peut également cracher des informations biaisées ou toxiques dans certains cas », a-t-il déclaré.

Enlighten - L'IA de confiance pour les entreprises

Même si Claude 2 peut tenir sa promesse d’être un chatbot IA « utile, inoffensif et honnête », il devra se battre pour se faire remarquer dans ce qui devient un marché très bruyant.

« Nous sommes submergés par le nombre de choses annoncées, ce qui rend plus difficile de s’élever au-dessus du bruit », a noté Enderle.

« ChatGPT, Bing et Bard ont le plus de partage d’esprit, et la plupart des gens ne verront aucune raison d’utiliser d’autres applications », a ajouté Sterling.

Il a noté qu’essayer de différencier Claude en tant qu’IA « amicale » ne suffira probablement pas à le distinguer des autres acteurs du marché. « C’est une abstraction », dit-il. « Claude devra être plus performant ou plus utile pour être adopté. Les gens ne verront aucune distinction entre lui et son rival plus connu ChatGPT.

Comme si les niveaux de bruit élevés ne suffisaient pas, il y a de l’ennui à gérer. « Il est plus difficile d’impressionner les gens avec n’importe quel type de nouveau chatbot qu’il y a six mois », a observé Duffield. « Il y a un peu de fatigue du chatbot qui s’installe. »