« La raison est que chaque passage que vous envoyez au modèle est quelque chose qu’il doit lire et raisonner sur un calcul GPU coûteux, et ce coût évolue avec la quantité que vous l’alimentez. Couper les passages non pertinents avant qu’ils n’atteignent le modèle signifie que vous arrêtez de payer les tarifs du modèle frontière pour raisonner sur un contexte qui n’aurait jamais d’importance », a fait écho Chaturvedi.
« À mesure que les entreprises adoptent des modèles plus grands et plus coûteux, le coût du contexte rembourré augmente rapidement. Et à l’ère agentique, les calculs empirent, car une mauvaise récupération ne produit pas seulement une mauvaise réponse. Elle déclenche plutôt une mauvaise étape, une nouvelle tentative et une nouvelle série de jetons tout au long de la trajectoire », a ajouté Chaturvedi.
Compromis potentiels
Malgré tous les avantages en termes de productivité, d’intégration et de coût, le Native Reranking, préviennent les analystes, comporte son propre ensemble de compromis potentiels.
