La vidéoconférence, les podcasts et les webinaires ont gagné en popularité pendant les années pandémiques de 2020 et 2021, le travail à distance faisant désormais partie de la nouvelle normalité. Avec la pandémie désormais dans le rétroviseur, les techniques de communication vidéo n’ont montré aucun signe de ralentissement.

Ce qui m’a amusé, c’est que malgré l’omniprésence des communications vidéo, la façon dont nous apparaissons souvent peu flatteurs devant la caméra à l’aide de webcams à faible résolution et sous-alimentées attire trop peu d’attention. Un mauvais éclairage, principalement lors de l’utilisation d’appels vidéo depuis la maison, est sans aucun doute un gros problème. Les webcams de résolution sub-HD intégrées à la plupart des ordinateurs portables, même haut de gamme, n’aident pas.

Sans les atouts professionnels disponibles dans un studio de télévision professionnel, les politiciens, les célébrités et les experts de l’industrie ont souvent l’air horribles lorsqu’ils sont interviewés à distance depuis leur domicile.

Les appels de vidéoconférence de routine depuis le domicile sont particulièrement vulnérables à l’apparence d’une « heure d’amateur », en particulier lors d’une présentation formelle où le regard errant (par exemple, ne pas regarder directement dans la webcam) peut distraire le spectateur.

L’emplacement de la webcam est responsable de cet effet indésirable car la caméra est généralement intégrée en haut du panneau du portable ou sur un support séparé difficile à placer devant un écran de bureau.

Étant donné que la visioconférence typique utilisant un ordinateur de bureau ou un ordinateur portable ne dispose pas de la fonctionnalité de téléprompteur appropriée, qui est complexe, encombrante et coûteuse, il est presque impossible de lire les notes du conférencier sans éviter le phénomène ennuyeux d’un angle de webcam horrible qui regarde vers le haut ou vers le bas. votre nez .

Existe-t-il des moyens rapides de résoudre le problème du regard?

Il existe plusieurs façons d’atténuer ce problème dans une configuration domestique typique d’ordinateur de bureau ou d’ordinateur portable. Cependant, ces approches sont strictement astucieuses et n’éliminent pas le problème.

Quelques entreprises fournissent de minuscules webcams externes, souvent équipées d’un microphone intégré, pour réduire la taille de l’appareil et permettre un placement au centre de votre écran, devant tout texte ou la fenêtre de visualisation elle-même de l’application vidéo que vous utilisez.

Ces caméras utilisent un fil fin drapé et clipsé en haut de l’écran. De cette façon, vous regardez directement dans la webcam et pouvez voir la plupart, mais pas la totalité, de la présentation ou du texte que vous présentez.


Pourtant, une autre méthode consiste à utiliser un morceau de plastique acrylique transparent qui vous permet de monter presque n’importe quelle webcam et de l’accrocher au haut de l’écran afin que la webcam se suspende devant le point central de l’écran.

L’avantage de cette approche est qu’elle vous permet d’utiliser votre webcam préférée. L’inconvénient est que la taille de la webcam et l’appareil en plastique acrylique masquent souvent une bonne partie de l’écran, ce qui le rend moins utile comme alternative au téléprompteur.

Plus tard, nous pouvons voir des écrans d’ordinateurs portables et de PC avec des webcams intégrées derrière le panneau LCD, qui sont invisibles pour l’utilisateur. Bien qu’il s’agisse d’une solution idéale au problème que j’ai décrit ci-dessus, l’inconvénient est que le coût de ces écrans spécialisés sera très élevé, ce que la plupart des fabricants seront réticents à proposer en raison des implications sur l’élasticité des prix.

L’IA peut résoudre les problèmes de contact visuel de manière pratique et économique.

L’idée d’utiliser l’intelligence artificielle pour atténuer ou éliminer le contact visuel lors des appels de vidéoconférence n’est pas nouvelle. Lorsqu’elle est effectuée correctement, l’IA peut éliminer le besoin d’acheter des équipements de télépromptage coûteux que les studios de télévision utilisent ou de recourir à certaines des méthodes fantaisistes que j’ai décrites ci-dessus.

Le défi de l’utilisation de l’IA pour effectuer des corrections de contact visuel à la volée (en direct) ou même dans un scénario enregistré est qu’il nécessite une puissance de processeur pour faire une grande partie du gros du travail.

Apple Silicon a cette capacité intégrée depuis quelques années avec ses puces iPhone. Peu d’utilisateurs savent que l’application FaceTime d’Apple a une correction du contact visuel (qui peut être désactivée), ce qui garantit que votre regard est concentré sur le milieu de l’écran, quelle que soit l’orientation de l’iPhone.

Paramètres de contact visuel pour l'application FaceTime d'Apple

Paramètre de contact visuel dans l’application FaceTime d’Apple


Microsoft a également rejoint la partie AI pour résoudre les problèmes de contact visuel. L’année dernière, il a annoncé qu’il ajouterait une capacité de solution de contact visuel à Windows 11 en tirant parti de la puissance des solutions Arm de Qualcomm et en tirant parti du silicium de l’unité de traitement neuronal (NPU) pour améliorer la vidéo et l’audio lors des réunions – y compris le cadrage du sujet, la suppression du bruit de fond , et flou d’arrière-plan.

Bon nombre de ces fonctionnalités sont déjà disponibles sur l’appareil Surface Pro X de Microsoft, qui utilise une puce Arm. Pourtant, Microsoft déploiera largement cette fonctionnalité sur des modèles plus compatibles des principaux OEM de PC cette année.

Diffusion Nvidia avec contact visuel

L’application Broadcast de Nvidia, qui fonctionne sur une large gamme de cartes graphiques externes Nvidia, est un outil d’intelligence artificielle robuste qui améliore les appels vidéo et les communications sur les PC x86. La semaine dernière, Nvidia a amélioré l’utilitaire dans la version 1.4 pour prendre en charge sa mise en œuvre du contact visuel, faisant apparaître que le sujet dans la vidéo regarde directement la caméra.

Le nouvel effet Eye Contact ajuste les yeux de l’orateur pour reproduire le contact visuel avec la caméra. Cette capacité est obtenue en utilisant la puissance de l’IA dans les GPU de Nvidia pour estimer et aligner le regard avec précision.

Fonction de contact visuel de Nvidia Broadcast

Le nouvel effet Eye Contact de Nvidia Broadcast 1.4 déplace les yeux de l’orateur pour simuler le contact visuel avec la caméra. | Crédit image : Nvidia


L’avantage de l’approche de Nvidia est que la capacité n’est pas limitée à une seule plate-forme ou application de vidéoconférence. Apple ne prend en charge sa capacité de correction du contact visuel qu’avec l’application FaceTime de l’iPhone. Cependant, je ne serais pas surpris si Apple étendait cette capacité aux utilisateurs de macOS plus tard cette année en conjonction avec sa capacité de caméra de continuité.

De plus, Nvidia Broadcast fournit une fonctionnalité Vignette comparable à celle de nombreux utilisateurs de l’application Instagram. De cette façon, Nvidia Broadcast peut générer un flou d’arrière-plan discret pour obtenir un visuel flou simulé par l’IA sur votre webcam, améliorant immédiatement la qualité visuelle.

La substitution d’images d’arrière-plan lors d’appels en visioconférence n’a rien de nouveau. Pourtant, l’approche de Nvidia offrira probablement une meilleure qualité car elle exploite la puissance de ses cartes graphiques, qui sont optimisées pour la création de contenu vidéo et les jeux.

Réflexions finales

La fonction de contact visuel de l’application Broadcast de Nvidia est actuellement en version bêta et n’est pas encore adaptée au déploiement. Comme toute fonctionnalité bêta, elle souffrira de problèmes inévitables, et nous devrions retarder le jugement formel de sa qualité jusqu’à ce que la version de production soit disponible.

De plus, Nvidia Broadcast n’est pas seulement une application courante, mais un SDK ouvert avec des fonctionnalités pouvant être intégrées dans des applications tierces. Cela ouvre un nouveau potentiel intéressant pour les applications tierces afin d’exploiter directement les fonctionnalités de Nvidia Broadcast.

Malgré cela, je suis étonné par certaines des réactions indésirables qui sont apparues au cours des dernières années autour de la perspective d’utiliser l’IA pour corriger le contact visuel. Certains analystes techniques ont utilisé des expressions telles que le « facteur effrayant » pour catégoriser cette fonctionnalité de la manière la plus peu attrayante possible.


En effet, la capacité inspirera de nombreuses blagues, peut-être méritées, si l’effet secondaire semble non naturel et artificiel. Cependant, la désignation effrayante semble exagérée et malhonnête. On pourrait faire la même insinuation en utilisant du maquillage ou en déployant des outils améliorés qui corrigent les déficiences audio lors d’un appel vidéo. Des applications comme TikTok ou Instagram n’existeraient pas sans filtres, qui créent des images beaucoup plus effrayantes, à mon avis.

Qu’on le veuille ou non, la vidéoconférence a survécu comme l’un des résultats positifs du monde post-pandémique. L’utilisation d’une technologie qui facilite des appels vidéo plus productifs, convaincants et percutants est quelque chose que nous devrions saluer, et non mépriser.

En tant que personne qui produit un podcast vidéo hebdomadaire et reconnaît le potentiel d’éliminer ou même de réduire le regard, ce qui pourrait, à son tour, introduire des avantages de type téléprompteur, j’ai hâte de tester cette capacité indispensable au cours des prochaines semaines.

A lire également