Quelle langue est la meilleure pour parler à l’IA ? Une fois que tu connaîtras la réponse, tu tomberas de ta chaise

Notre langue polonaise – celle qui semble être une barrière insurmontable pour beaucoup de gens – s’est avérée être… la plus simple à comprendre pour l’intelligence artificielle. Selon une étude menée par l’Université du Maryland et Microsoft, les modèles d’IA répondent le plus précisément aux commandes en polonais. L’anglais, habituellement considéré (bien qu’à tort) comme la langue maternelle des machines, n’arrive qu’à la sixième place.

Des chercheurs de l’Université du Maryland et de Microsoft ont vérifié dans quelle mesure les principaux modèles linguistiques comprenaient les commandes dans 26 langues du monde. Le résultat a surpris même leurs créateurs : ce n’est pas de l’anglais, mais du polonais s’est avéré être le plus « lisible » pour l’IA.

Le polonais a atteint une efficacité moyenne de 88 % dans les tâches de test, qui comprenaient : la génération de texte, l’interprétation de commandes longues et le raisonnement logique. À titre de comparaison, l’anglais a obtenu un score de 83,9 % et le chinois n’était que 4e à partir du bas. Cela veut dire quelque chose. Il est difficile de ne pas sourire : les humains peuvent se laisser tromper par les inflexions et les exceptions, mais l’IA les gère mieux que le simple anglais. Peut-être parce que la langue polonaise est incroyablement précise, même si elle fonctionne à un niveau de complexité inaccessible pour les utilisateurs de nombreuses langues plus populaires dans le monde ?

Pourquoi polonais ?

D’un point de vue scientifique, le polonais a quelque chose qui manque à de nombreuses langues : haute précision structurelle. Inflexion par cas, genres et nombres – tout cela rend le sens des phrases extrêmement clair. Pour une personne qui apprend une langue, c’est une torture, mais pour un modèle qui apprend des dépendances statistiques, c’est de l’or absolu.

Et c’est ainsi que l’IA peut mieux comprendre ce que l’utilisateur souhaite réaliser, car chaque mot fournit des informations sur les relations dans la phrase. En anglais par exemple, le sens dépend souvent du contexte ou de l’ordre des mots. En polonais – il est écrit sous la forme même du mot. C’est un peu la différence entre un croquis et un plan technique : le premier donne une idée générale, le second des instructions sans aucune marge d’erreur.

Les données ne jouent pas le rôle principal

Pourtant, le polonais ne dispose pas d’un avantage quantitatif en termes de quantité de données sur Internet dans notre langue. L’anglais domine, le chinois compte des milliards d’utilisateurs, et pourtant les modèles ont de moins bons résultats dans leur utilisation. Cela signifie que la quantité de données d’entraînement ne se traduit pas toujours par la qualité du raisonnement.

Les chercheurs suggèrent que la structure de la langue, et non sa popularité, pourrait être la clé. Les modèles formés sur plusieurs langues peuvent tirer des conclusions de systèmes grammaticaux plus complexes – comme le polonais – et ainsi mieux comprendre les commandes complexes quelle que soit la langue. Peut-être que des langages auparavant considérés comme « difficiles » deviendront la base du développement de futurs modèles ?

A quoi ressemble le classement ?

Les dix langues les mieux comprises comprennent :

Polonais – 88%
Français – 87%
Italien – 86%
Espagnol – 85%
Russe – 84%
Anglais – 83,9 %
Ukrainien – 83,5%
Portugais – 82%
Allemand – 81%
Néerlandais – 80%

Certains résultats semblent carrément… absurdement pervers. Après tout, le chinois possède l’une des plus grandes bases de données de textes sur Internet et se classe au quatrième rang en partant du bas. Il ne suffit pas de « remplir » les modèles avec d’énormes quantités de données : ce qui est important, c’est la manière dont ces données sont organisées et la façon dont le langage permet à la machine de comprendre les relations entre les mots.

Qu’est-ce que cela signifie pour l’avenir de l’IA ?

Les conclusions de l’étude sont simples, mais aussi surprenantes. Puisque le polonais fonctionne mieux comme langue de commande, peut devenir le langage privilégié pour interagir avec l’IA dans certaines applications – de l’éducation à la création de contenu et à la gestion de systèmes.

En savoir plus: L’intelligence artificielle est devenue folle. C’était suffisant pour lui montrer ça

C’est également une bonne nouvelle pour les utilisateurs polonais. Vous pouvez inclure dans votre liste de mythes le fait que l’IA « comprend mieux l’anglais/le chinois/toute autre langue ». Celui-ci parle très bien le polonais. Cela signifie : nous pouvons être sérieusement fiers de notre langue. Certes, pas facile, mais beau et surtout précis.