Le problème avec les grands modèles de langage (LLM) est que leurs fenêtres contextuelles ont une capacité limitée. Google affirme avoir résolu cette limitation en développant une technique appelée Infini-attention.

La nouvelle technique utilise la même quantité de ressources du système informatique (en termes de taille de mémoire et de puissance de calcul) que les modèles de langage standard. Actuellement, les fenêtres contextuelles prises en charge par tous les modèles d’intelligence artificielle populaires ont une capacité limitée. Ainsi, la fenêtre contextuelle d’une application GPT-4 peut en contenir au maximum 128 000. les jetons, c'est-à-dire les caractères alphanumériques inclus dans la requête.

Et il faut savoir que dans le cas des modèles LLM, la taille de la fenêtre contextuelle est très importante. Par conséquent, les créateurs de tels modèles souhaitent que les fenêtres contextuelles qui les prennent en charge aient la plus grande capacité possible. Et ce n’est pas simple, car doubler la capacité de la fenêtre contextuelle signifie qu’elle doit disposer de quatre fois plus de mémoire.

Les créateurs de la nouvelle technique ont réussi à résoudre ce problème en déplaçant les données de la mémoire active vers la « mémoire de compression ». Le modèle est alors capable d'associer la mémoire compressée à toutes les données d'entrée résidant dans la mémoire active, générant ainsi la réponse finale.

Cette technique présente l'avantage que l'application accepte une fenêtre contextuelle de n'importe quelle longueur, en éditant d'abord la première version de la réponse, puis, grâce à la technique Infini-attention, en mettant en œuvre des approches ultérieures, spécifiant à chaque fois une réponse de plus en plus fiable et satisfaisante pour l'utilisateur. réponse.

A lire également