Google Gémeaux. L'intelligence artificielle du géant a de plus en plus à offrir

Gemini dans Gmail, Docs, Chrome, les outils de développement et plus encore

Dans Gmail, Gemini se trouve dans une barre latérale qui permet d'écrire des e-mails et de résumer les fils de discussion. Vous trouverez le même panneau dans Docs, où il vous aide à rédiger et à affiner le contenu et à générer de nouvelles idées. Gemini dans Slides génère des diapositives et des images personnalisées. Et dans Google Sheets, il suit et organise les données en créant des tableaux et des formules.

Récemment, le chatbot IA de Google est apparu dans Maps, où Gemini peut résumer les avis sur les cafés ou proposer des recommandations sur la façon de passer une journée à explorer une ville étrangère.

La portée de Gemini s'étend également à Drive, où il peut résumer des fichiers et des dossiers et vous donner des informations rapides sur un projet. Dans Meet, Gemini traduit les sous-titres dans des langues supplémentaires.

Récemment Gemini est apparu dans le navigateur Chrome sous la forme d’un outil d’écriture d’IA. Vous pouvez l'utiliser pour écrire quelque chose de complètement nouveau ou réécrire un texte existant. Google indique qu'il prendra en compte le site Web sur lequel vous vous trouvez pour faire des recommandations.

Ailleurs, vous trouverez des traces de Gemini dans les produits de base de données de Google, les outils de sécurité cloud et les plateformes de développement d'applications (notamment Firebase et Project IDX), ainsi que dans des applications comme Google Photos (où Gemini gère les requêtes de recherche en langage naturel), YouTube ( où il vous aide à générer des idées vidéo) et l'assistant de prise de notes NotebookLM.

Code Assist (anciennement Duet AI for Developers), l'ensemble d'outils de complétion et de génération de code basés sur l'IA de Google, confie l'informatique lourde à Gemini. De même, les produits de sécurité basés sur Gemini de Google, tels que Gemini dans Threat Intelligence, peuvent analyser de gros morceaux de code potentiellement malveillant et permettre aux utilisateurs d'effectuer des recherches en langage naturel pour détecter des menaces ou des indicateurs de compromission. Comme vous pouvez le constater, l’IA est déjà pratiquement partout.

Générer des images avec Imagen 3

Les utilisateurs Gemini peuvent créer des images, en utilisant le modèle Imagen 3 intégré. Google affirme qu'Imagen 3 peut comprendre les commandes de texte qu'il traduit en images encore plus précisément que la version précédente. Il est également plus « créatif et détaillé » dans son travail. De plus, il génère moins d’artefacts et d’erreurs visuelles (du moins selon Google).

*Exemple d'image générée par Imagen 3 / Source : Mat. propre*

Ajoutons ça en février, Google a été contraint d'interrompre la capacité de Gemini à générer des images de personnes après que les utilisateurs se soient plaints d’inexactitudes historiques. Cependant, en août, la société a réintroduit l'option de génération humaine pour certains utilisateurs, en particulier les utilisateurs anglophones inscrits à l'un des forfaits Gemini payants de Google (par exemple Gemini Advanced) dans le cadre d'un programme pilote.

Que peuvent faire les modèles Gemini ?

Parce que Les modèles Gemini sont multimodauxpeut effectuer toute une série de tâches, de la transcription de discours à la description d'images et de vidéos en temps réel.

Bien entendu, tout ne fonctionne pas encore parfaitement et ces outils doivent toujours être traités comme « en cours de développement ». De plus, Google n’offre aucune solution à certains des problèmes fondamentaux de la technologie de l’IA générative, tels que les préjugés inhérents et la tendance à inventer des choses (c’est-à-dire à halluciner).

Gemini Ultra et possibilités

Google dit que Gemini Ultra – grâce à sa multimodalité – peut être utilisé pour faciliter des choses comme les devoirs de physiqueen résolvant les problèmes étape par étape sur la feuille et en signalant d'éventuelles erreurs dans les réponses déjà complétées.

Ultra peut également être appliqué à des tâches telles que l'identification d'articles de recherche liés à un problème donné. Par exemple, le modèle peut extraire des informations de plusieurs articles et mettre à jour un graphique à partir d'un seul, générant ainsi les formules nécessaires pour recréer le graphique avec des données plus à jour.

Gemini Ultra est également disponible sous forme d'API via Vertex AI, la plateforme de développement d'IA entièrement gérée de Google, et AI Studio, l'outil en ligne de Google destiné aux développeurs d'applications et de plateformes.

Gemini Pro et possibilités

Google dit que Gemini Pro est une amélioration par rapport à LaMDA dans la capacité de raisonner, de planifier et de comprendre. La dernière version, Gemini 1.5 Pro, qui alimente les applications Gemini pour les abonnés Gemini Advanced, surpasse même Ultra dans certains domaines.

Gemini 1.5 Pro est amélioré dans de nombreux domaines par rapport à son prédécesseur, Gemini 1.0 Pro – peut-être plus particulièrement dans la quantité de données qu'il peut traiter. Gemini 1.5 Pro peut accepter jusqu'à 1,4 million de mots, deux heures de vidéo ou 22 heures d'audio et peut raisonner à leur sujet ou répondre à des questions sur ces données.

Gemini 1.5 Pro est devenu généralement disponible sur Vertex AI et AI Studio en juin avec une fonctionnalité appelée « exécution de code », qui vise à réduire les erreurs dans le code généré par le modèle en affinant ce code de manière itérative en plusieurs étapes.

Dans Vertex AI, les développeurs peuvent adaptez Gemini Pro à des contextes et des cas d'utilisation spécifiques grâce à un processus de réglage. Par exemple, le Pro (ainsi que d'autres modèles Gemini) peut être invité à utiliser des données provenant de fournisseurs tiers.comme Moody's, Thomson Reuters, ZoomInfo ou MSCI, ou obtenir des informations à partir d'ensembles de données d'entreprise ou d'une recherche Google au lieu d'une base de connaissances plus large. Gemini Pro peut également être connecté à des API externes tierces pour effectuer des actions spécifiques, telles que l'automatisation du flux de travail du back-office.

AI Studio propose des modèles pour créer des commandes de discussion structurées avec Pro. Les développeurs peuvent contrôler la portée créative du modèle et fournir des exemples pour fournir des instructions sur le ton et le style, ainsi qu'affiner les paramètres de sécurité de Pro.

Vertex AI Agent Builder vous permet de créer des « agents » basés sur Gemini dans Vertex AI. Par exemple, une entreprise pourrait créer un agent qui analyse les campagnes marketing précédentes pour comprendre le style de la marque, puis appliquer ces connaissances pour générer de nouvelles idées cohérentes avec ce style.

Gemini Nano peut fonctionner sur votre téléphone

Le Gemini Nano est une version beaucoup plus petite des modèles Gemini Pro et Ultra et est suffisamment puissant pour fonctionner directement sur (certains) appareils plutôt que d'envoyer le travail vers le cloud. Jusqu'à présent Nano alimente plusieurs fonctionnalités sur Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 et Samsung Galaxy S24.

Par exemple, l'application Recorder, qui permet aux utilisateurs d'appuyer sur un bouton pour enregistrer et transcrire de l'audio, comprend un résumé alimenté par Gemini des conversations, interviews, présentations et autres extraits audio enregistrés. Les utilisateurs reçoivent des résumés même s'ils ne disposent pas de signal ou de connexion Wi-Fi – et, pour des raisons de confidentialité, aucune donnée ne quitte leur téléphone au cours du processus.

Nano est également présent dans Gboard, le remplacement du clavier de Google. Là, il alimente une fonctionnalité appelée Smart Reply, qui aide à suggérer la prochaine chose que vous voudrez écrire tout en discutant sur une application comme WhatsApp.

Combien coûtent les modèles Gemini ?

Gemini 1.0 Pro (la première version de Gemini Pro), 1.5 Pro et Flash sont disponibles via l'API Gemini de Google pour créer des applications et des services, le tout avec des options gratuites. Cependant, les options gratuites imposent des limites d'utilisation et omettent certaines fonctionnalités telles que la mise en cache contextuelle et le regroupement.

Ci-dessous les tarifs des solutions d'IA de Google :

Gémeaux 1.0 Pro — 50 cents pour 1 million de jetons d'entrée, 1,50 $ pour 1 million de jetons de sortie
Gémeaux 1.5 Pro – 1,25 $ pour 1 million de jetons d'entrée (pour les commandes jusqu'à 128 000 jetons) ou 2,50 $ pour 1 million de jetons d'entrée (pour les commandes de plus de 128 000 jetons) ; 5 $ pour 1 million de jetons de sortie (pour les commandes jusqu'à 128 000 jetons) ou 10 $ pour 1 million de jetons de sortie (pour les commandes de plus de 128 000 jetons)
Gémeaux 1.5 Flash — 7,5 cents pour 1 million de jetons d'entrée (pour les commandes jusqu'à 128 000 jetons), 15 cents pour 1 million de jetons d'entrée (pour les commandes de plus de 128 000 jetons), 30 cents pour 1 million de jetons de sortie (pour les commandes jusqu'à 128 000 jetons), 60 cents pour 1 million de jetons de sortie (pour les commandes de plus de 128 000 jetons)
Gémeaux 1.5 Flash-8B – 3,75 cents pour 1 million de jetons d'entrée (pour les commandes jusqu'à 128 000 jetons), 7,5 cents pour 1 million de jetons d'entrée (pour les commandes de plus de 128 000 jetons), 15 cents pour 1 million de jetons de sortie (pour les commandes jusqu'à 128 000 jetons), 30 cents pour 1 million de jetons de sortie (pour les commandes de plus de 128 000 jetons)

Les jetons sont des éléments de données brutes divisés, tels que les syllabes d'un mot donné. 1 million de jetons équivaut à environ 700 000 mots. L'entrée fait référence aux jetons introduits dans le modèle, tandis que la sortie fait référence aux jetons générés par le modèle.

*Le 11 décembre, Google a présenté Gemini 2.0*

Les prix d'Ultra et de Flash 2.0 n'ont pas encore été annoncés et Nano est toujours en accès anticipé.

Les utilisateurs de Googe One peuvent, à leur tour, accéder à Gemini Advanced avec le modèle 1.5 Pro s'ils achètent un abonnement pour 97,99 PLN/mois, comprenant : 2 To de stockage cloud. Récemment, Google a également présenté Gemini 2.0.

Qu’est-ce que le projet Astra ?

Le projet Astra est le résultat du travail de Google DeepMind pour créer des applications et des agents basés sur l'IA pour fonctionner en temps réel et avec le mode multimodal. Lors des démonstrations, Google a montré comment le modèle d'IA pouvait traiter simultanément la vidéo et l'audio en direct. Google a également publié une version de l'application Project Astra à un petit nombre de testeurs de confiance en décembre, mais il n'est pas prévu de version plus large pour le moment.

L'entreprise aimerait intégrer le projet Astra dans une paire de lunettes intelligentes. Il a également fourni un prototype de lunettes dotées du projet Astra et de capacités de réalité augmentée à plusieurs testeurs. Il n’y a pas de produit fini pour le moment et on ne sait pas quand quelque chose arrivera réellement sur le marché.