Les Polonais ne sont pas des oies, ils ont leur propre Qra...

Fin de semaine avec des succès polonais. L'Université de technologie de Gdańsk et le laboratoire d'IA du Centre de traitement de l'information (OPI) – Institut national de recherche annoncent le développement d'un modèle de langage génératif en polonais basé sur un téraoctet de données textuelles exclusivement en polonais. Le modèle Qra comprend mieux le contenu en polonais, comprend mieux les questions posées dans cette langue et permet de mieux créer des textes cohérents. Nous croisons les doigts pour le développement !

Méta-outils, Mistal AI, ChatGPT – super, mais qu'en est-il du contexte polonais ? Le développement de GenAI doit prendre en compte les contextes locaux.

La Pologne essaie. Avec des résultats variés. Les critiques d'hier – ou peut-être les doutes quant à la mise en œuvre – des activités liées à la création du modèle linguistique PLLuM (Polish Large Language Universal Model) par un consortium d'unités scientifiques et de recherche (Université des sciences et technologies de Wrocław, Institut national de recherche NASK, Centre de traitement de l'information – Institut national de recherche (OPI PIB), Institut d'informatique de l'Académie polonaise des sciences, Université de Łódź, Institut d'études slaves de l'Académie polonaise des sciences), freine quelque peu l'enthousiasme. Bref, tout arrive trop tard ou trop lentement. Puls Biznesu a cité hier le ministre du Numérique qui, lors d'une réunion de la sous-commission parlementaire permanente sur l'intelligence artificielle et la transparence des algorithmes, a soulevé la question des efforts et des fonds investis dans quelque chose qui, en fin de compte, apparaîtra trop tard et ne sera pas trop élevé. dans la hiérarchie des modèles. Les travaux sur le PLLuM pourraient durer jusqu’à fin 2025. Aujourd’hui, il existe une réelle lacune technologique.

Mais il faut essayer.

Et un jour plus tard, il y a un peu plus de raisons d'être optimiste quant aux efforts polonais liés à genAI.

OPI et l'Université de technologie de Gdańsk ont annoncé aujourd'hui le développement d'un modèle linguistique génératif en polonais appelé Qra, alimenté et formé exclusivement sur des textes en langue polonaise. Le corpus utilisé initialement était constitué de près de 2 To de données textuelles brutes. Grâce au processus de nettoyage et de déduplication, sa taille a presque doublé pour conserver la meilleure qualité et un contenu unique. Il s'agit du premier modèle génératif pré-entraîné sur une ressource aussi importante de textes polonais, pour lequel une grande puissance de calcul a été utilisée pour l'entraînement.

Est-ce un événement important ? Définitivement oui. Les modèles Llama, Mistral et GPT sont principalement formés sur des données en anglais, et seule une fraction d'un pour cent du corpus de formation est constituée de données en polonais.

Qra est un modèle linguistique fondamental qui peut générer des réponses grammaticalement et stylistiquement correctes en polonais

Un environnement informatique dédié à la construction de modèles d'intelligence artificielle a été créé à l'Université de Technologie de Gdańsk dans le Centre de Compétence STOS, l'un des centres informatiques les plus modernes de cette partie de l'Europe, où se trouve le supercalculateur Kraken. Le processus a utilisé un cluster de 21 cartes graphiques NVidia A100 de 80 Go. Il a fallu environ six mois aux équipes pour préparer l'environnement, créer des outils et des modèles, les former (sur la base, entre autres, de contenus issus de domaines tels que le droit, la technologie, les sciences sociales, la biomédecine, la religion ou le sport) et les tester. Grâce à l'infrastructure étendue de CK STOS, le processus de formation proprement dit pour les modèles les plus complexes a été raccourci d'années à environ un mois.

Qu'obtient-on finalement ?

Trois modèles qui diffèrent par leur complexité, à savoir Qra 1B, Qra 7B, Qra 13B. Les modèles Qra 7B et Qra 13B obtiennent un résultat de perplexité nettement meilleur, c'est-à-dire la capacité de modéliser la langue polonaise en termes de compréhension, de couche lexicale ou de grammaire elle-même, que le Llama-2-7b-hf (Meta) original. et modèles Mistral-7B-v0.1 (Mistral-AI).

Des tests de mesure de la perplexité ont été réalisés, entre autres, sur l'ensemble des 10 000 premières phrases de l'ensemble de tests PolEval-2018, et en outre, les modèles ont été testés sur un ensemble de 5 000 documents longs et plus exigeants rédigés en 2024.

Les modèles Qra constitueront la base des solutions informatiques pour traiter les questions et les processus qui nécessitent une meilleure compréhension de la langue polonaise.

À ce stade, Qra est un modèle linguistique fondamental capable de générer des réponses grammaticalement et stylistiquement correctes en polonais. Le contenu créé est de très grande qualité, ce qui se confirme, entre autres, par : mesure de perplexité. L’équipe va maintenant commencer à travailler sur le réglage des modèles afin de vérifier leurs capacités pour des tâches telles que la classification de texte, le résumé et la réponse aux questions.

Le modèle Qra est disponible gratuitement sur la plateforme huggingface.

« Nous avons décidé de partager les résultats de notre travail pour accélérer le développement de la société de l'information en Pologne. Il est important de noter que tous les outils disponibles peuvent être téléchargés par n’importe qui, entièrement gratuitement. Nous avons décidé que le développement dynamique de l'industrie informatique et de la communauté scientifique en Pologne était dans l'intérêt de tous. L'Université Polytechnique de Gdańsk envisage de développer un assistant afin que chaque internaute puisse utiliser l'outil », a expliqué Sławomir Rybka du Centre de traitement de l'information (OPI) – Institut national de recherche à la rédaction de Computerworld.