Tribunes

Avec ChatGPT-4o, OpenAI marque la fin de la course à la taille des LLM

Publié le 27/05/2024

Après les benchmarks annonçant le surclassement de ChatGPT-4 par Claude 3, ainsi que les attaques de plus en plus prononcées de Google (Gemini) et de Facebook (Llama 3), beaucoup s’attendaient à voir la sortie de ChatGPT-5.

OpenAI lance finalement sa version 4o, pour Omni (qui signifie “tout” en latin), une version intermédiaire mais loin d’être décevante. Elle démontre que l’enjeu n’est plus de toujours mieux comprendre des prompts et de produire des textes, mais bien de comprendre et de produire "tout".

OpenAI semble ainsi mettre fin à la course aux paramètres (puissance du modèle de langage), une décision logique vu les coûts exponentiels que cela génère.

Progressivement avec la version 4, nous avons vu apparaître du “multimodal” (pas uniquement du texte) : la production d’images et de schémas, la reconnaissance de la voix et des images, ainsi que la compréhension des mathématiques et de documents parfois complexes (avec schémas, graphiques, etc.).

Avec 4o, OpenAI va beaucoup plus loin et peut vraiment passer d’un outil pour geeks à un véritable assistant du quotidien pour tous. Pour le grand public, mais aussi pour les professionnels, avec la future application desktop, qui permettra à l’IA de “regarder” l’écran et nous assister pour coder, décrypter des schémas dans l’exemple (ci-dessous)… mais de nombreuses applications possibles sont imaginables.

ChatGPT gagne de la voix

Nous sommes tous d’accord, rien de plus pénible qu’une voix de synthèse avec son timbre et son rythme monocorde. ChatGPT n’a plus ce défaut.

Si ce n’est pas encore d’une fluidité humaine, il est aujourd’hui possible d’avoir une vraie conversation agréable avec ChatGPT, ou plutôt avec Breeze, Cove, Ember, Juniper, les différentes voix disponibles (Sky, un peu trop inspirée de la voix de Scarlett Johansson, a déjà disparu, même si OpenAI dément la copie).

Ses capacités de modulation (ci-dessus) et de rythme sont exceptionnelles, permettant un panel important d’émotions et même de chanter (y compris des harmoniques). Sans parler de sa capacité sarcastique.

La plus grande avancée dans l’audio reste la fonction d’écoute “Whisper”, qui permet de couper la parole de l’IA pour une discussion plus naturelle. Cela ouvre de nombreux usages comme la traduction en temps réel, l’animation de discussions (au minimum leur synthèse) ou la transformation de l’IA en professeur de mathématiques (ci-dessous).

L’IA voit son environnement pour de nouveaux usages…

Si Yann Le Cun, chercheur français en IA (Meta), soulignait en début d’année que les modèles actuels ne comprennent pas leur environnement, cette nouvelle version avec sa capacité de vision en temps réel est totalement bluffante en ce sens. Capable de décrire précisément son environnement, l’IA devient un compagnon idéal pour les non-voyants (ci-dessous).

Parmi les usages les plus amusants et impressionnants, on note la démonstration où une IA “voyante” décrit son environnement à une IA “non-voyante”, ou celle qui donne des conseils de style avec humour (ci-dessous) ou qui devient arbitre d’un pierre-feuille-ciseaux.

Avec la voix et la vue, OpenAI peut maintenant devenir le nouveau système d’exploitation phare de la robotique. Et si le premier robot boosté à OpenAI (ci-dessous) n’est pas encore très impressionnant, les perspectives sont passionnantes.

… mais aussi de nouveaux risques

D’autres démos mettent mal à l’aise, comme celle où l’IA voyant un chien se met à “craquer” devant sa "so-cutitude" comme un humain pourrait le faire. Mais le pire exemple est sans doute celui où l’IA souhaite un anniversaire et se met à chanter (ci-dessous).

Quand on sait qu’un Français sur quatre se sent seul, n’est-ce pas désolant d’imaginer une personne seule devant son gâteau avec comme seul “ami” ChatGPT ?

Les équipes de ChatGPT semblent se désintéresser totalement de la question de l’effet Eliza (“tendance à assimiler le comportement d'une IA à celui d'un être humain”) au point d’assumer une fonction “flirt”, qui n’est pas du tout neutre psychologiquement. Assumé au point que Sam Altman tweete un “Her”, en référence au film dont il est fan, où le personnage de Joaquin Phoenix s’éprend d’une IA jouée par Scarlett Johansson (encore elle). À se demander si Altman a compris que le film était un drame sur la solitude.

Et au-delà du cinéma, de vrais drames existent. Par exemple, en Belgique en 2023, un homme qui s’était fait une confidente d’une IA au nom d’Eliza (si, si !) aurait été incité à se suicider.

Même si OpenAI continue sa course en tête en termes d’innovation et ouvre des opportunités incroyables dont on peine à imaginer toute la portée, on peut se demander si, quand Sam Altman demande plus de régulation, ce n’est pas pour que quelqu’un l’arrête dans sa folie transhumaniste. Retenez-moi... ou je fais un malheur !

> Restez informé avec notre newsletter Linkedin AI by JIN.