Du tokenmaxxing au tokenmatching

Les LLM évoluent constamment, devenant à la fois plus puissants et plus spécialisés. Être capable d’acheminer une invite vers le modèle qui est à la fois bien adapté à la tâche et rentable est le moyen de maximiser l’efficacité des jetons. Les équipes le font désormais manuellement, mais l’IA elle-même deviendra le meilleur moyen de prendre de telles décisions.

Par exemple, Claude Code Router peut acheminer les invites vers n’importe quel nombre de modèles populaires, en fonction du type de travail requis par chaque invite. Et c’est open source.

La prochaine couche à venir est le prétraitement des invites. Nous pouvons travailler pour rédiger de bonnes invites, mais l’IA elle-même peut améliorer ce que nous demandons. L’une des meilleures techniques d’incitation consiste à dire au LLM de « poser les questions que je ne pose pas mais que je devrais poser ». Je peux facilement imaginer un monde dans lequel vous écrivez une invite, l’IA vous aide à la clarifier, à l’améliorer, puis à l’acheminer vers le modèle le meilleur et le plus rentable pour une réponse.

A lire également