La génération de données synthétiques est déjà devenue une activité en soi, qui pourrait valoir 2,34 milliards de dollars. d’ici 2030, Gartner prédit que 60 % des données utilisées cette année pour les projets d’IA et d’analyse seront générées de manière synthétique.

Luca Soldaini de l'Allen Institute for AI a également noté que les données synthétiques peuvent générer des données de formation dans des formats difficiles à obtenir. Par exemple, Meta a utilisé Llama 3 pour créer des sous-titres pour le matériel de formation de Movie Gen, que les gens peaufinaient. De même, OpenAI a adapté GPT-4o en utilisant des données synthétiques pour créer la fonction Canvas pour ChatGPT. Amazon génère des données synthétiques pour compléter les données réelles des modèles Alexa.

Consultez également : les assistants IA pour le codage n’augmentent pas la productivité et n’empêchent pas l’épuisement professionnel

Risque que l’IA soit mal entraînée

Toutefois, les données synthétiques ne sont pas sans inconvénients. Ils souffrent du problème du « déchets entrants, déchets sortants ». Si les modèles créant des données synthétiques étaient, par exemple, formés sur des données biaisées, les résultats seraient également « entachés ». Aucun humain ne détectera les erreurs appropriées et ne suggérera d'ajouter du contenu représentant un point de vue différent.

Une étude réalisée en 2023 par l’Université Rice et Stanford a révélé que une dépendance excessive à l’égard de données synthétiques peut conduire à des modèles dont la qualité et la diversité diminuent. Le biais d’échantillonnage entraîne une détérioration de la diversité après quelques générations. Mélanger avec des données réelles est utile, mais toutes les entreprises ne décident pas de franchir cette étape, principalement en raison des coûts.

Les données générées par l'IA sont utilisées pour développer d'autres IA/Photo. Idéogramme

Keyes voit les risques que des modèles complexes comme o1 d'OpenAI peuvent générer les hallucinations dans les données synthétiques sont difficiles à détecter, ce qui réduit la précision des modèles formés sur ces données.

Les hallucinations cumulatives peuvent ensuite conduire à des modèles générant du charabia. Une étude parue dans Nature montre comment les modèles formés sur de mauvaises données produisent davantage d'erreurs, et cette boucle aggrave les générations suivantes. Les modèles perdent leur compréhension de problématiques spécifiques et perdent également leurs spécialisations. Ils deviennent alors « généraux » et produisent des réponses non pertinentes.

Une utilisation sûre nécessite donc un examen, une sélection et un filtrage assistés par l’homme, et de préférence une fusion avec des données réelles.

Le PDG d'OpenAI, Sam Altman, affirme que l'IA produira un jour des données synthétiques suffisamment bonnes pour s'entraîner. Cependant, cette technologie n’existe pas encore. Aucun grand laboratoire n'a encore développé un modèle formé uniquement sur des données synthétiques. Pour l'instant.

Lire aussi : Nous ne savons pas que nous utilisons l'IA – des résultats de recherche inquiétants

A lire également