Une meilleure façon de gérer les dépenses LLM

En tant que vieux gars de Delphi, je me souviens bien des « guerres de langage » que nous avons eues avec les gars de Visual Basic. L’un des premiers noms de code de Delphi était « VBK » – VB Killer – et la communauté VB s’y est opposée. Ils venaient sur nos forums Delphi et se disputaient. Naturellement, nous, les gars impétueux de Delphi, ripostions, nous engageant dans de grandes guerres de flammes et nous énervions pour ce qui n’était rien de plus qu’une préférence personnelle. De bons moments.

Ces jours-ci, nous avons avancé la discussion : quel est le meilleur modèle de codage ? Les choses ne sont pas aussi intenses que les poussières VB/Delphi, mais les gens ont leurs opinions. Les entreprises examinent différents modèles avant d’en choisir un pour leurs équipes. La plupart des équipes sont parvenues à une famille de modèles qu’elles utilisent.

À un moment donné, discuter avec Claude ou Codex a commencé à paraître un peu brut. Il n’a pas fallu longtemps avant que des outils d’échafaudage tels que GStack et Superpowers ajoutent des bases pour interagir avec les LLM – des instructions de base pour gérer les invites avant qu’elles n’atteignent le modèle lui-même. Ils aident à établir un contexte utile et agissent comme une couche au-dessus des « invites brutes ». L’ingénierie du contexte est la première et la plus courante couche à ajouter au-dessus de l’interface de discussion.

Et puis une fois le choix des modèles et des harnais fait, tout le monde est devenu fou de tokenmaxxing. Si vous possédez un modèle, vous souhaitez bien sûr en tirer le meilleur parti. Mais lorsque le projet de loi est arrivé, les dirigeants n’étaient pas contents. Alors que les coûts montaient en flèche, les dirigeants s’inquiétaient du fait que l’argent n’était pas bien dépensé.

Routage de modèle – la couche suivante

Tout comme le langage assembleur et les registres de réglage manuel ont cédé la place aux compilateurs et aux langages structurés, qui ont conduit aux frameworks et aux bibliothèques, et plus récemment aux LLM et aux invites, les développeurs et les gestionnaires commencent à comprendre qu’il existe une meilleure façon de gérer les dépenses LLM.

Mais naturellement, dès que vous comprenez comment les choses fonctionnent, une autre couche apparaît, rendant obsolètes toutes vos connaissances durement acquises. Apparemment, être capable de coder en anglais ne suffit pas à empêcher l’apparition de la prochaine abstraction.

Comme c’est toujours le cas, une autre couche d’abstraction est apparue. (Sic sempre fuit.) Ainsi, le routage de modèles est le dernier moyen de maximiser la valeur de chaque dollar dépensé en jetons.

L’idée est que toutes les invites ne sont pas égales. Tout ce que vous demandez à Claude ne nécessitera pas la réflexion approfondie d’un modèle pionnier. Un routeur modèle peut examiner l’invite et décider quel modèle est le mieux adapté pour répondre à cette invite et diriger la requête vers ce modèle. Peut-être que les demandes plus simples conviennent mieux à un modèle plus ancien. Peut-être que les révisions de code sont mieux effectuées avec un modèle spécialement conçu à cet effet.

Le routage du modèle conduit à des dépenses de jetons plus efficaces. Lorsque vous exécutez Claude Code aujourd’hui, vous devez choisir un modèle pour toute la session, et si vous souhaitez utiliser le modèle de niveau supérieur, vous devez payer pour cela, peu importe ce que vous faites. Un modèle de routeur vous permet de varier le modèle – et donc le coût. Des organisations comme Coinbase voient leurs dépenses en IA réduites de moitié tandis que leur utilisation de jetons augmente.

Du tokenmaxxing au tokenmatching

Les LLM évoluent constamment, devenant à la fois plus puissants et plus spécialisés. Être capable d’acheminer une invite vers le modèle qui est à la fois bien adapté à la tâche et rentable est le moyen de maximiser l’efficacité des jetons. Les équipes le font désormais manuellement, mais l’IA elle-même deviendra le meilleur moyen de prendre de telles décisions.

Par exemple, Claude Code Router peut acheminer les invites vers n’importe quel nombre de modèles populaires, en fonction du type de travail requis par chaque invite. Et c’est open source.

La prochaine couche à venir est le prétraitement des invites. Nous pouvons travailler pour rédiger de bonnes invites, mais l’IA elle-même peut améliorer ce que nous demandons. L’une des meilleures techniques d’incitation consiste à dire au LLM de « poser les questions que je ne pose pas mais que je devrais poser ». Je peux facilement imaginer un monde dans lequel vous écrivez une invite, l’IA vous aide à la clarifier, à l’améliorer, puis à l’acheminer vers le modèle le meilleur et le plus rentable pour une réponse.

Vous ne choisirez plus un prestataire LLM donné. Au lieu de cela, vous pouvez vous concentrer sur la spécification exacte de ce que vous voulez. Alors arrêtez de créer manuellement vos invites pour un modèle spécifique. Laissez les modèles de routeurs et les préprocesseurs d’invite à venir faire le travail à votre place.