Microsoft travaille sur un nouveau modèle LLM haut de gamme, baptisé MAI-4. Le géant de Redmond espère pouvoir concurrencer avec succès les modèles actuellement leaders de ce type, comme le Gemini ou le GPT-4.

L'équipe de conception de MAI-4 est dirigée par Mustafa Suleyman, qui était récemment PDG de la startup d'IA Inflection avant que Microsoft n'acquière la société pour 650 millions de dollars. Le modèle MAI-1 a été entraîné avec 500 milliards de paramètres. Par conséquent, il est presque égal au modèle GPT-4 (plus de 1 000 milliards de paramètres) et bat la plupart des modèles, comme Mistral (70 milliards de paramètres).

Microsoft a utilisé une énorme quantité de ressources informatiques pour entraîner ce modèle, en utilisant des données obtenues sur Internet et des données générées par le modèle GPT-4. Et vous devez savoir que la formation de modèles linguistiques est un processus très coûteux. Par exemple, on estime que la formation du modèle GPT-4 a coûté plus de 100 millions de dollars à l’entreprise.

Le développement de MAI-1 montre que Microsoft entend concentrer son attention à la fois sur de petits modèles de langage exécutés localement (par exemple ceux pris en charge par les appareils mobiles) et sur des modèles plus grands et de pointe installés dans le cloud. Il est intéressant de noter qu'Apple a l'intention d'adopter une stratégie similaire et a déjà développé huit petits modèles de langage d'IA destinés à être utilisés sur divers appareils.

Le modèle de Microsoft a été formé à l'aide d'un grand cluster de serveurs équipés de GPU Nvidia. Il est dit que Microsoft pourrait présenter une version préliminaire du modèle MAI-1 lors de la conférence des développeurs Build, qui aura lieu à la fin de ce mois.

Enfin, il convient de rappeler que le mois dernier, Mirosoft a lancé une nouvelle famille de petits modèles de langage Phi, dans le cadre de son plan visant à rendre sa technologie d'intelligence artificielle générative légère mais performante disponible sur davantage de plates-formes, y compris les appareils mobiles.

La famille Phi-3 se compose de trois modèles : Phi-3 Mini avec 3,8 milliards de paramètres, Phi-3 Small avec 7 milliards de paramètres et Phi-3 Medium avec 14 milliards de paramètres. La concurrence ne chôme pas non plus. Tandis que Snowflake présentait Arctic LLM, Databricks lançait DBRX. À son tour, Meta a sorti son modèle Llama 3. Quelques jours plus tard, Cohere a lancé toute la gamme de modèles de langue appartenant à la famille Command.

A lire également