“L’IA a plus de synergie avec la XR qu’avec n’importe quelle autre technologie”, Ziad Asghar, Qualcomm

L’Usine Digitale - Cela fait plus d’une décennie maintenant qu’on parle d’un renouveau de la réalité virtuelle et augmentée, mais il y a le sentiment d’un essoufflement malgré les progrès technologiques indéniables. Qu’est-ce qui vous a motivé à prendre ce poste ?

Ziad Asghar - Je pense que que l’heure de la XR est venue. Il y avait des barrières complexes à franchir pour créer des lunettes connectées qui soient vraiment excellentes, et si les Ray-Ban Meta ont montré une chose, c’est qu’un appareil légèr, agréable à porter et stylé, qui ne vous fait pas ressembler à un androïde, peut avoir du succès.

J’ai pendant longtemps eu un poste horizontal chez Qualcomm, je travaillais sur toutes les technologies : CPU, GPU, IA, interfaces mémoires... Tous les défis de l’informatique mobile sont amplifiés pour l’informatique spatialisée. Je pense que c’est le prochain paradigme.

Oui, enfin les Ray-Ban Meta n’ont pas d’écran, il y a certes la brique audio qui est impressionnante mais c’est surtout la caméra qui fait l’intérêt du produit...

Ce n’est que le début, ça ne va pas s’arrêter là. Ce qui fait leur succès, c’est la caméra avec le point de vue de l’utilisateur, qui voit ce que je vois, combinée aux algorithmes d’intelligence artificielle. On avait déjà des appareils capables de prendre des photos ou vidéos, mais là on touche du doigt un cas d’usage en or car a un agent IA embarqué.

Les écrans sont la prochaine étape, et nous avons déjà des démonstrations en ce sens sur notre stand. Ensuite il y a le suivi et la perception de l’environnement : SLAM [Simultaneous localization and mapping, ndlr], hand tracking, eye tracking, etcetera. L’appareil XR ultime ce sont des lunettes de réalité augmentée qu’on peut rendre opaque pour faire de la réalité virtuelle quand on en a envie. C’est ce que tout le monde cherche à atteindre.

Les Ray-Ban Meta sont un bel exemple de ce qu’on peut faire à date, et côté Qualcomm nous avons déjà des puces qui permettront d’intégrer des écrans et d’autres capacités tout en garantissant une expérience de très bonne qualité.

Cela étant dit, vous ne pourrez pas gérer un affichage plus une interface à base d’IA générative avec le Snapdragon AR1 Gen 1 des Ray-Ban Meta, et l’AR2 Gen 1 a déjà deux ans et demi. Est-ce que les futures expériences en question ne vont pas nécessiter une Gen 2 ?

Tout à fait. Pour être honnête l’AR1 a encore beaucoup de ressources comparé à ce que font les Ray-Ban Meta. Les appareils qui sortiront d’ici la fin de l’année continueront d’utiliser l’AR1 et de mieux en tirer parti. Cela étant dit, nous avons évidemment déjà des Gen 2 en cours de développement, et vous allez voir que la feuille de route va s’élargir car il nous faudra couvrir plus de choses. Je ne peux pas vous en dire plus.

Quelle a été l’adoption des AR1 et AR2 jusqu’à présent ? Les Ray-Ban ont du succès mais combien d’autres fabricants utilisent ces solutions ?

Il y a trois approches pour les lunettes connectées. La première c’est de capturer une image et ensuite de faire de l’IA dans le cloud. C’est ce que font les Ray-Ban Meta. Ensuite vous avez un affichage dans les lunettes et la puissance de calcul est fournie par le smartphone. C’est la stratégie en cours de construction avec Android XR. Enfin, j’ai un troisième groupe de clients qui n’ont pas de ressources cloud ni de smartphones à eux, et dans ce cas-là ils peuvent utiliser un petit boîtier avec leur appareil.

Ma stratégie est de pousser vers une utilisation conjointe avec les smartphones, car cela fera des lunettes les « wearables » ultimes. Elles peuvent faire tout ce que fait une smartwatch ou des écouteurs, et plus encore. Vous ne pouvez pas mettre de caméra sur une montre connectée, c’est un aspect unique aux lunettes. Donc vous allez voir cette seconde approche arriver chez les fabricants de smartphones. Je ne vous donne pas de noms car ils n’ont pas encore annoncé leurs projets.

Vous savez, ayant géré l’IA chez Qualcomm durant ces six dernières années, je connais bien la question et je peux vous dire que l’IA a plus de synergie avec la XR qu’avec n’importe quelle autre technologie. Je n’irai pas me balader en pointant mon smartphone vers ce qui m’entoure en permanence pour qu’il puisse voir ce que je vois, mais je peux le faire avec des lunettes. C’est ça la vraie promesse. Il y a déjà des appareils comme les RayNeo de TCL ou ce que fait Xreal mais il y a beaucoup d’autres choses qui arrivent.

Permettez moi d’être désagréable concernant les lunettes fonctionnant en tandem avec un smartphone. Votre prédécesseur nous disait déjà qu’elles arrivaient il y a six ans, au MWC 2019. Il est parti et on les attend toujours. Quant aux lunettes de TCL ou de Xreal, je ne sais pas ce que cela donne en Chine mais ici leur usage est anecdotique...

Je pense que la preuve concrète sera qu’un fabricant de smartphone lance des lunettes connectées. Je peux dire ce que je veux, mais c’est ça qui comptera, et donc ma réponse est que je travaille avec de multiples fabricants pour lancer des lunettes connectées.

A quel horizon peut-on s’attendre à voir quelque chose ?

Avant le milieu de cette année, de la part d’un grand fabricant de smartphones.

D’accord, là ça m’intéresse.

Je suis content de l’entendre. Pour tout vous dire j’ai pu voir leur prototype lors d’un de mes meetings sur le salon. Au passage, un autre élément intéressant pour les lunettes vient du fait qu’elles sont prises en charge par les assurances santé et mutuelles. En ce moment certains fabricants de smartwatch essaient de convaincre les assurances de les rembourser car elles ont une dimension médicale, mais c’est déjà le cas pour les lunettes. Cela va faciliter leur adoption.

Du côté de la réalité virtuelle ou réalité mixte, le Snapdragon XR2 Gen 2 est sorti il y a déjà 18 mois avec le Meta Quest 3, mais on ne le retrouve pas dans beaucoup de casques aujourd’hui. Or, même chose que pour l’AR2 Gen 1, il va bientôt être temps de passer à la prochaine génération... N’est-ce pas révélateur d’un problème dans l’écosystème ?

En effet, il va bientôt être temps. Mais il faut bien comprendre que la différence entre la XR et les smartphones c’est que le délai entre la sortie d’un de nos SoC et le lancement d’un produit est très court car Android est une plateforme mure et maîtrisée. Elle ne connaît pas beaucoup de changements majeurs. Pour la XR, il y a un gros travail à faire et cela prend donc du temps avant d’arriver entre les mains des consommateurs, mais ça ne veut pas dire qu’il ne se passe rien en interne.

C’est aussi ce qui est super avec la XR et la raison pour laquelle j’aime ce secteur : la courbe d’évolution technologique est très raide car il y a énormément de facteurs d’amélioration et les besoins sont très élevés, que ce soit en matière de résolution, de latence, de rendu, etc. On est encore loin d’être suffisamment bons, et c’est ce qui est exaltant. Tout ça pour dire qu’il y a évidemment une Gen 3 en cours de développement et qu’elle fera un bond important en matière de performances.

Justement, quelles sont les priorités parmi tous ces facteurs d’amélioration pour le XR2 Gen 3 ? Car évidemment tout le monde parle d’IA générative en ce moment, et puis il y a bien sûr la résolution, surtout avec Apple en face, chose à laquelle vous répondez déjà un peu avec le XR2+... Quoi d’autres ?

Je dirais qu’il y a cinq ou six catégories clés d’amélioration. Pour être clair, quand on parle d’une résolution 4K x 4K par oeil, aujourd’hui aucun moteur ne peut fournir ce rendu sur tous les cas d’usage car la partie graphique limite les choses. Sur la prochaine génération, nous aurons des capacités graphiques réhaussées et vous pourrez afficher plus de choses avec plus d’images par seconde, et ce sur tous les cas d’usage, notamment les jeux nécessitant beaucoup de puissance.

Ca c’est le numéro un. Numéro deux, on va passer à une meilleure finesse de gravure, donc plus de puissance pour le même temps d’utilisation ou plus de temps pour la même puissance. Dans les deux cas c’est top. Cela veut aussi dire des appareils plus compacts, plus légers. Ensuite ce que j’améliorerai sur une future plateforme, pas spécifiquement la XR2 Gen 3, ce serait par exemple les interfaces. Le passage à l’USB4 et autres. Il y va y avoir beaucoup de travail sur ces aspects.

Ensuite il y a notre moteur de vision par ordinateur qui est vraiment critique. Comme nous disposons de nos propres algorithmes de perception, qu’il s’agisse de hand tracking, eye tracking et autres, nous savons ce qui consomme le plus de puissance et donc ce qu’il faudrait mettre en dur dans le silicium. C’est l’un de nos différenciateurs chez Qualcomm, et c’est un autre vecteur significatif d’amélioration. Et puis pour finir la qualité des caméras, pour améliorer le video passthrough. Il faut notamment faire de la réduction de bruit et c’est une chose que nous savons très bien faire.

Est-ce que cela implique que vos puces XR s’éloignent progressivement des puces pour smartphones ? Ca a déjà été un peu le cas avec la XR2 Gen 2, mais est-ce que cela va s’accentuer encore ? Je pense notamment au DSP Hexagon, désormais NPU et que Meta utilisait énormément pour libérer le CPU sur les tâches de tracking et autres.

Bonne question. La réalité mixte est unique dans le sens où on utilise énormément d’IA et ça tourne en permanence. Pour le SLAM, le hand tracking, la reconstruction de l’environnement en 3D... Tout cela fonctionne en simultané, et Hexagon permet d’avoir de très bonnes performances soutenues dans le temps.

Pour la prochaine étape, l’arrivée de l’IA générative, il va y avoir deux approches. La première c’est que le NPU actuel dispose d’assez de ressources pour faire tourner un LLM en plus des moteurs de perception, ce qui semble peu probable bien que nous en augmentions les performances à chaque génération. L’autre implique d’avoir un coprocesseur dédié aux tâches liées à la réalité mixte, tout comme il y a un coprocesseur dédié à l’IA.

Cela veut aussi dire que si vous avez développé une application d’IA générative pour des lunettes de réalité augmentée qui s’appuie sur un coprocesseur IA, il sera facile de les transposer sur un casque de réalité mixte.

Quid de votre CPU Oryon ? La VR demande est surtout gourmande en performances graphiques, ce qui tombe du côté du GPU Adreno, mais est-ce qu’il y aurait quelque chose à gagner en passant à Oryon ?

Oui il y aurait à gagner. L’une des bonnes choses avec la XR c’est qu’on n’a pas besoin de se plier au jeu du benchmarking. Et désormais nous pouvons concevoir un CPU qui est optimisé exactement pour ce dont nous avons besoin. Il ne s’agit plus de faire rentrer un bout rond dans un trou carré. Donc pour nos composants de prochaine génération, nous allons évidemment réfléchir à ce genre de choses.

Cela a aussi un intérêt pour la réalité augmentée, car la consommation énergétique y est reine. Avec un CPU qui obtient de bien meilleures performances en matière de consommation que n’importe qui d’autre, nous aurions un avantage majeur. Voilà les bénéfices qu’Oryon pourrait apporter à cette ligne de produits.

Comment gérez-vous vos relations stratégiques avec Meta d’un côté et Samsung et Google, à qui vous avez donné votre écosystème Spaces, de l’autre ? Vous êtes un partenaire clé des deux camps et ils sont en concurrence directe.

Eh bien, Qualcomm est un partenaire de nombreuses entreprises qui sont en compétition dans d’autres domaines, par exemple les smartphones. Nous fournissons des puces à Samsung, à Xiaomi, à Oppo...

Certes mais là les écosystèmes sont concurrents, avec des app stores distinctes, etc. Cela me semble être différent d’une simple concurrence entres fabricants de smartphones.

D’une certaine façon je dirais que l’écosystème XR est plus dynamique, il y a de multiples options et cela simplifie les choses pour être partenaire de tout le monde. Nous sommes des facilitateurs et nous cherchons à ce que chaque fabricant puisse se différentier de la façon dont il le souhaite. Prenez Pico ou Play for Dreams par exemple, qui ont de très bons produits, très innovants.

Et pour les écosystèmes, même s’ils peuvent avoir l’air d’être en opposition directe, je pense qu’on voit apparaître des segments spécifiques bien délimités. Je pense que les produits Meta ont fait un travail remarquable pour le gaming, mais qu’il y a un besoin en matière de productivité, qu’il y a un besoin d’amener l’écosystème Google sur la XR, il y a un besoin pour l’éducation, le médical, le monde de l’entreprise, la défense... Et nous avons des partenaires dans tous ces domaines.

Vous mentionnez la défense. Êtes-vous partenaire d’Anduril sur le contrat IVAS pour l’armée américaine ?

Nous travaillons avec de multiples partenaires, dont certains dans la défense. Nous n’avons pas donné de détails sur le sujet à date, mais nous pourront probablement en parler à l’avenir.

Pour le marché grand public, les volumes de vente restent relativement bas à date, et la vraie réalité augmentée, comme avec le prototype Meta Orion, est hors de prix aujourd’hui. Comment cela peut-il changer ?

Je dirais qu’il y a eu deux écueils jusqu’à présent : le premier est le manque de contenu. Et qu’est-ce qui permet de générer du contenu ? L’IA. Il existe des techniques incroyables de nos jours, comme le gaussing splatting, pour convertir du contenu 2D en 3D. C’est un aspect.

L’autre concerne les lunettes avec affichage immersif. Les technologies d’affichage ne pouvaient pas passer à l’échelle jusqu’à maintenant, mais nous percevons une voie d’ici à la fin de l’année pour créer ce type d’appareil à un prix raisonnable, avec des affichage à guide d’ondes.

Et ce qui est clé par dessus ça c’est que les Ray-Ban Meta ont montré qu’il faut que ces appareils soient cool et trendy. J’ai la conviction que les smartglasses vont connaître une forte croissance, et bien que les lunettes AR immersives soient moins matures, elles ne sont pas loin derrière. Ensuite il y a les lunettes permettant une immersion totale, mais là cela va prendre plus longtemps.

J’entends ce que vous dites mais j’ai le sentiment qu’il y a une forme de pessimisme qui plombe l’écosystème VR de nos jours. On a désormais des casques de très bonne qualité comme le Quest 3, et pourtant ça peine encore et toujours à décoller. Qu’auriez-vous à dire aux développeurs qui s’en inquiètent ? Parce que l’IA générative peut certes produire beaucoup de choses, mais pas forcément très qualitatives. Comment convaincre les gens que cela va faire vendre des millions et des millions de casques ?

Il faut que l’écosystème fasse front commun pour s’attaquer au problème. Par exemple nous travaillons avec la XR Sports Alliance (XRSA) pour aider à ce que les rencontres sportives puissent être vues de façon immersive. C’est ce genre de choses qu’il faut développer.

Et puis, comme je l’ai dit, je pense que les nouveaux écosystèmes qui arrivent vont aussi apporter plus de contenu. Avec Android XR par exemple, Google a énormément de contenu disponible. Au-delà de ça, nous travaillons aussi pour permettre la capture vidéo spatialisée à partir d’un smartphone, pour que chaque smartphone puisse être capable de créer du contenu immersif.

On se demande pourquoi ça n’est pas déjà disponible depuis des années...

Haha, je pourrais vous répondre mais je préfère être prudent avec ce que je dis. Quoi qu’il en soit, je pense que les écosystèmes se sont réveillés concernant ce besoin. Le smartphone est l’appareil parfait pour ce type de capture. Nous y travaillons, ça va arriver.