Google propose plusieurs versions du modèle appartenant aux solutions d'IA VLM (Vision Language Model). Tout le monde est capable d'analyser des photos de différentes tailles (3B, 10B et 28B) et avec différentes résolutions (224px, 448px et 896px). Le modèle crée une description détaillée de la photo basée sur une analyse approfondie non seulement de notre visage, mais également de tous les éléments qui y sont visibles, y compris tout l'environnement et tout le contexte de la photo.
Cela semble intéressant, mais les experts tirent la sonnette d’alarme et mettent en garde contre les conséquences possibles de l’utilisation d’une telle technologie. Reconnaître les émotions humaines est difficile car chacun exprime ses émotions différemment, sans parler du fait que beaucoup dépend du contexte culturel et des caractéristiques personnelles de chaque personne.
Par conséquent, les chercheurs analysant cette technologie préviennent que les systèmes de reconnaissance des émotions basés sur l’IA pourraient ne pas être fiables et conduire les personnes qui les utilisent à des conclusions erronées. Ils pensent que le modèle PaliGemma 2 est carrément dangereux car il ne faut jamais déduire les émotions d'une personne uniquement en se basant sur les traits de son visage.