Avec l'annonce de son nouveau modèle Llama 3 , Meta s'apprête à apporter l'intelligence artificielle à WhatsApp , Instagram et Facebook . C'est une décision qui pourrait mettre le modèle entre les mains de plus de 3 milliards d'utilisateurs quotidiens . Ce flux sans précédent de données d’interaction homme-IA pourrait aider Meta à prendre la tête de la course à l’IA.
Au cours de la dernière année, le GPT-4 d' OpenAI a été le grand modèle de langage dominant. La popularité du LLM éclipse celle des offres concurrentes de Google , Meta et Mistral , mais la différence de qualité des modèles se réduit. Après le Command R+ de Cohere , le Llama 3 est le deuxième modèle ouvertement disponible ce mois-ci à surpasser le GPT-4 original en termes de popularité. Ces derniers jours, nous avons vu Microsoft lancer ses modèles Phi-3 , et même Snowflake se lancer dans la course avec son propre LLM . Le secteur des modèles linguistiques est de plus en plus saturé et ses protagonistes peinent à se différencier.
« Une concurrence intense donne lieu à un espace en évolution rapide. » Une avancée technique incroyable peut devenir un jeu d’enfant en quelques mois, à mesure que les concurrents adaptent rapidement leur approche. L’innovation dans les architectures et les algorithmes ne s’est pas traduite par un avantage concurrentiel défendable. Le budget ou l’échelle n’ont pas non plus d’importance, même si les grandes sociétés de technologie et de capital-risque investissent des milliards de dollars en financement. « La seule façon d’obtenir un avantage durable consiste à disposer de données plus nombreuses et de meilleure qualité. »
Une boucle de rétroaction positive pour l’IA
Les recherches accompagnant les récentes publications du LLM ont montré que même les modèles formés avec des milliards de mots de texte de formation restent sous-entraînés. "Augmenter le volume et la qualité des données est un moyen éprouvé d'améliorer les performances." Alors que les principaux acteurs consomment déjà la plupart des données publiques de formation appropriées, la prochaine étape à examiner sera l'utilisation du LLM lui-même.
Les données dérivées de la façon dont nous interrogeons et guidons les modèles linguistiques à travers les conversations représentent plus qu'une simple augmentation de volume : elles peuvent aider à renforcer ce que les modèles font déjà bien et à se concentrer sur ce qu'ils ont du mal à améliorer. OpenAI et Google , qui proposent leurs modèles directement aux utilisateurs finaux via une interface de chat, ont déjà commencé à créer cet ensemble de données.
Lorsque les données d’utilisation améliorent la qualité et que la qualité entraîne une plus grande utilisation, « la boucle de rétroaction positive peut transformer un espace en un quasi-monopole ». Nous avons déjà vu cette histoire avec les moteurs de recherche. Si Google a pris l'avantage grâce à un algorithme de classement innovant utilisant des données publiques, il a réussi à maintenir et à accroître cette avance en s'appuyant sur l'énorme volume de données d'utilisation de ses utilisateurs. Cela a laissé d’autres acteurs du mal à conquérir ne serait-ce qu’une petite fraction du marché. Même Satya Nadella , PDG de Microsoft , a déclaré l'été dernier que Bing est pire que Google et que tout est question de données.
« Nous n’avons pas encore vu une entreprise tirer efficacement parti de la boucle de rétroaction liée à l’utilisation de l’IA. » Bien que les améliorations apportées à GPT-4 depuis sa version initiale soient probablement dues en partie aux données d'utilisation, les changements semblent plus itératifs que transformateurs. Cependant, avec plus de 100 millions d’utilisateurs actifs par mois, OpenAI a créé un ensemble de données conversationnelles sans précédent. Selon les rumeurs, le très attendu GPT-5 serait mis en vente cet été, et nous pourrions enfin voir ces données entrer en jeu. À partir de là, nous pourrions voir OpenAI creuser l’écart et continuer à affirmer sa domination.
Même si les gains de qualité issus des données d'utilisation étaient modestes, vos interactions passées permettraient toujours à un modèle de s'adapter à vous mieux que quiconque. "Et c'est là que réside la véritable différenciation à long terme des modèles d'IA : mieux vous connaître."
L'IA dominante viendra via les applications de messagerie et les réseaux sociaux
La boucle de rétroaction des données et la prochaine version d'OpenAI rendent le timing de Meta particulièrement intéressant. Bien plus que de réclamer le temps et l’attention de milliards de personnes, Meta possède l’endroit où la plupart des gens discutent par défaut. "Apporter vos capacités d'IA basées sur Llama directement dans cette boîte de réception pourrait accroître l'adoption plus rapidement que le taux de ChatGPT ."
« D’ici le reste de l’année, nous verrons probablement les fournisseurs d’IA capables d’exploiter les données des utilisateurs prendre de l’avance sur tous les autres. » Les joueurs qui possèdent les espaces virtuels dans lesquels les gens interagissent avec leurs modèles seront mieux lotis que ceux qui se contentent de fournir les modèles mais ne peuvent pas collecter les données. C'est une excellente nouvelle pour OpenAI , Microsoft , Google et Meta , mais cela pourrait laisser de côté d'autres concurrents non Big Tech comme Mistral et Cohere . « L’année prochaine, l’espace de l’IA connaîtra probablement une dynamique concurrentielle très différente de celle d’aujourd’hui. »
Même si un financement massif et des modèles open source compétitifs rendent les capacités d'IA les plus puissantes étonnamment bon marché aujourd'hui, il est peu probable que ce niveau de prix soit maintenu une fois que seuls les grands acteurs pourront offrir une expérience d'IA plus solide.
" L'habitude actuelle de Meta de proposer ses modèles open source en fait l'option la plus conviviale aujourd'hui, mais elle pourrait reconsidérer sa décision lorsque d'autres acteurs open source prendront du retard. " "L'IA de classe mondiale d'aujourd'hui est probablement la plus ouverte et la plus accessible que nous ayons jamais vue, nous ferions donc bien d'en profiter tant qu'elle dure."