Skip to main content

Une femme marchant le soir dans les rues illuminées de Tokyo, deux golden retrivers écoutant un podcast au sommet d’une montagne, une grand-mère influenceuse donnant des cours de cuisine dans une maison au décor rustique en Toscane… Autant de vidéos pour le moins insolites qui circulent depuis jeudi soir sur les réseaux sociaux, et qui présentent toutes un point commun : elles ont été générées par SORA, la nouvelle intelligence artificielle mise au point par l’entreprise OpenAI, également connue pour avoir développé ChatGPT et DALL·E. 

À partir d’un simple prompt et en quelques instants seulement, ce nouveau logiciel est capable de générer des vidéos d’une minute présentant un degré impressionnant de réalisme. Actuellement en phase expérimentale et uniquement disponible en accès ultra restreint, ce nouvel outil semble malgré tout en passe de marquer une véritable révolution dans l’univers de l’intelligence artificielle. Quelles en sont exactement les spécificités ? Comment fonctionne-t-il ? Quelles sont ses utilités ?

“Écris-moi une vidéo”

“Nous aimerions vous montrer ce que SORA est capable de faire,” annonçait Sam Altman, dirigeant de OpenAI sur son compte X (ex-Twitter) le jeudi 15 février. Ce jour-là, l’ex-président de l’incubateur de start-up Y Combinator, demandait à ses abonnés de lui décrire toutes sortes de vidéos qu’ils auraient aimé voir générées par sa toute nouvelle intelligence artificielle, baptisée SORA.

Cette dernière s’est prêtée au jeu et, en quelques heures, le réseau social a vu passer bon nombre de vidéos, dont certaines plutôt loufoques. Cette nouvelle façon de générer du contenu que l’on appelle “text-to-video” soulève de nombreuses interrogations, surtout à l’heure où les deepfakes inondent les réseaux sociaux. La question peut d’autant plus se poser que les performances de Sora ne s’arrêtent pas à la simple génération d’une vidéo d’après description, mais se montrent en réalité bien plus vastes et complexes.

En effet, d’après les créateurs de OpenAI, les capacités de leur nouvelle IA sont pour le moins exhaustives. Outre la capacité à générer des vidéos sur simple requête textuelle, Sora est également capable d’entreprendre un large éventail de tâches d’édition sur du contenu existant — comme par exemple animer une image fixe ou rallonger (vers l’avant ou l’arrière) une vidéo de courte durée.

THHE FARM Codex - Sora Open AI Shiba 1

Encore plus impressionnant, Sora peut générer des vidéos en combinant des éléments issus de séquences sources présentant un sujet et une composition qui n’ont a priori rien en commun. Dans la vidéo centrale ci-dessous, générée à partir de deux vidéos existantes, un nouveau monde se métamorphose littéralement sous nos yeux : le drone en plein vol se transforme en papillon qui lui-même se fraye un chemin à travers une architecture de coraux. Le résultat impressionne tant la transition d’une séquence à l’autre est fluide.

“Hollywood vient de mourir”, écrivait @Culture_Crit en réponse à Greg Brockman et son tweet dévoilant la première vidéo générée par SORA sur le réseau social X. D’autres “RIP Hollywood” en commentaires lui emboîtent le pas. L’avenir leur donnera-t-il raison ? Une chose est sûre, ce qui s’ensuit a de grandes chances de confirmer leurs craintes.

Vers une nouvelle réalité virtuelle ?

Un article publié sur le blog de OpenAI, repéré par le média en ligne Quartz, nous dévoile que Sora possède la capacité de comprendre non seulement la demande faite par l’utilisateur dans sa description mais également la manière avec laquelle les éléments qu’elle est censée reproduire existent dans le monde physique, autrement dit notre monde réel.

Dans un second article coécrit par des chercheurs de OpenAI intitulé “Des modèles de générateurs vidéos comme des simulateurs de mondes”, on apprend que SORA maîtrise les techniques de la conception 3D, comme les mouvements dynamiques de la caméra ou le déplacement d’un sujet dans un espace en trois dimension. Ces facultés lui permettent de générer des mondes numériques ex-nihilo et soulèvent  indubitablement une question essentielle dans le domaine de la création à l’ère du numérique : avec le développement d’un tel type d’intelligence artificielle, comment vont réagir les industries du cinéma et du jeu vidéo, déjà concurrencée pour cette dernière par des acteurs comme Meta, Microsoft ou Runway ? 

Une expérience menée par les créateurs de OpenAI permet de nous fournir certains éléments de réponse. Après avoir mentionné le mot “Minecraft” dans l’une de leurs consignes données à SORA, l’intelligence artificielle s’est exécutée en recréant un univers extrêmement ressemblant au célèbre jeu vidéo du même nom. Encore plus impressionant : le logiciel s’est montré capable de “contrôler simultanément son joueur et retranscrire le plus fidèlement possible” l’environnement dans lequel il évolue (elle y a inclus un véritable heads-up display — en français “affichage tête haute” — une interface renseignant toutes les informations relatives à l’environnement du jeu). Un véritable exploit qui n’est pas sans pouvoir un jour concurrencer le marché du jeu vidéo. 

Si pour certains, cette prouesse semble presque capable de remplacer leur jeu vidéo favori, d’autres ne se retiennent pas d’exprimer leur aversion envers un tel outil :

  • “Tellement ressemblant et pourtant rien ne va.” — @XorDev
  • “C’est plus ressemblant que le vrai Minecraft.” — @JamaulMr
  • “L’univers oui, le gameplay pas encore.” — @harleyw
  • “On dirait un speedrun loupé de Minecraft mais c’est quand même amusant.” — @blesskatty

Malgré tout, si les prouesses de SORA semblent illimitées, force est de constater qu’il existe toujours un seuil de réalisme que l’IA peine à reproduire. Et bien souvent, ce dernier se niche dans le détail. Nous constatons par exemple que SORA rencontre des difficultés lorsqu’il s’agit de reproduire certains phénomènes physiques, comme celui d’un verre rempli de liquide qui se brise sous nos yeux.

En dévoilant leur nouvelle intelligence artificielle, OpenAI a ainsi frappé un grand coup. Face aux nombreuses craintes, l’entreprise n’a cependant pas manqué de rassurer les plus sceptiques, en alertant notamment sur la question de la sécurité. Un article paru dans 20 Minutes nous apprend que des simulations seront organisées aux côtés d’utilisateurs dont la mission sera de produire du contenu inapproprié ou de créer des dysfonctionnements dans le but de définir au mieux les limites du logiciel.

Quant à l’impact de cette nouvelle intelligence artificielle sur les industries créatives, là aussi la compagnie se veut rassurante. Elle affirme qu’elle rendra sa plateforme disponible à un certain nombre d’artistes, de designers ou de cinéastes dans le but de récolter leurs commentaires pour améliorer leur modèle, de telle sorte à ce que ce dernier soit le plus adapté possible aux professionnels de la création.

Daniela Zepka