Les tests, examens et examens n’ont plus de sens. Voici le coupable

ChatGPT a obtenu des résultats supérieurs à ceux des meilleurs candidats aux examens d’entrée à l’Université de Tokyo et à l’Université de Kyoto. C’est le moment où il faut s’interroger sur le sens de tests basés principalement sur des connaissances, des calculs et des régularités.

LifePrompt Inc. a vérifié comment ChatGPT 5.2 Thinking fera face à l’un des examens d’entrée les plus prestigieux du Japon. Il s’est avéré que le modèle a obtenu des résultats supérieurs à ceux des meilleurs candidats admis à l’Université de Tokyo et à l’Université de Kyoto. Grosse affaire, car en 2024, l’IA utilisée dans un test similaire n’a pas réussi tous les examens de l’Université de Tokyo. Regardez le rythme : il n’a fallu que deux ans de développement du marché et l’intelligence artificielle a commencé à faire face sans problème à certains des tests les plus difficiles au monde. Le système éducatif japonais est réputé pour la grande difficulté des examens d’entrée.

ChatGPT a réussi là où il avait échoué auparavant

Selon LifePrompt, le modèle a obtenu un score de 452 sur 550 possibles à l’examen des sciences humaines et sociales de l’Université de Tokyo. À l’examen scientifique, il a obtenu 503 points sur 550, dépassant les scores les plus élevés des candidats admis annoncés par l’université. À titre de comparaison, le score le plus élevé dans la filière Sciences humaines et sociales III était de 434 points, et dans la filière Sciences naturelles III la plus compétitive, liée à la médecine, il était de 453 points. LifePrompt affirme également que ChatGPT a obtenu 50 points de plus que le meilleur candidat au test et a obtenu la note maximale en mathématiques.

La manière dont le test est mené compte : il ne s’agit pas uniquement de simples questions fermées. LifePrompt a converti les copies d’examen en images et les a transmis au modèle, et les réponses attendues comprenaient également des formulaires descriptifs et ouverts. Et ces fragments ont été évalués par des professeurs de la grande école préparatoire japonaise Kawai Juku, censée rapprocher la procédure des conditions des examens réels. L’entreprise a également pris en compte les résultats ChatGPT des examens d’entrée universitaires standardisés, puis a additionné les points pour chaque filière.

L’Université de Kyoto a également cédé

Les résultats de l’Université de Kyoto n’ont fait que multiplier l’étonnement face aux capacités de l’IA. Lors de l’examen de la Faculté de droit, ChatGPT a obtenu 771 points, tandis que le seuil le plus élevé parmi les candidats admis était de 734 points. Lors de l’examen de la Faculté de médecine, le modèle a obtenu 1 176 points, dépassant ainsi le score déjà solide de 1 098 points attribué au candidat le mieux accepté.

Ce succès n’a cependant pas été sans quelques surprises « négatives ». ChatGPT a en fait gagné 90 pour cent. points en anglais, mais dans les questions descriptives dans des matières telles que l’histoire du monde, il n’a obtenu que… 25 pour cent. Pourquoi? Car là, l’examen nécessite non seulement de reconnaître le modèle, mais aussi de préparer un argumentaire de bonne qualité, de sélectionner des arguments et de travailler avec le contexte géopolitique et les réalités connues de l’histoire. L’IA « mangera » des tâches avec une structure spécifique pour le petit-déjeuner, mais là où vous avez besoin d’un peu de flair et d’efforts intellectuels, elle vous laissera tomber. Pour l’instant.

Où est le problème avec les tests actuels ?

En 2024, LifePrompt a utilisé le modèle ChatGPT 4 pour résoudre l’examen de l’Université de Tokyo, mais le résultat n’a pas atteint le minimum requis pour l’admission à l’université. Un an plus tard, le test avec le modèle o1 s’est terminé par le premier seuil de réussite. Le résultat actuel obtenu par ChatGPT 5.2 Thinking est déjà une avancée décisive. Voyons maintenant : comment pouvons-nous tester équitablement l’avantage humain dans de tels tests ? De tels tests ont-ils encore un sens ? Et ne vont-ils pas le perdre complètement, par exemple, dans les deux prochaines années ?

Lire aussi : ChatGPT atteindra-t-il un nouveau niveau ? Les créateurs annoncent qu’ils s’adressent désormais à tout le monde

Cela se traduit non seulement par des écoles, des tests et des examens, mais aussi par des emplois. Les entreprises devraient mettre en œuvre l’IA en pensant à ce à quoi ressemblera le travail dans 10 ou 20 ans. Les humains et l’IA ne devraient pas rivaliser sur le même terrain et devraient être abordés de cette façon. Cependant, les examens axés sur la mémoire et les compétences informatiques testent de plus en plus des compétences dans lesquelles les machines sont déjà naturellement fortes. Peut-être est-il temps de modifier l’étendue des compétences que nous attendons des individus, d’utiliser pleinement l’IA dans les écoles et les entreprises et de laisser aux individus ce qui est… typiquement humain ?