OpenAI dévoile Sora, un modèle de conversion de texte en vidéo

OpenAI dévoile Sora, un modèle capable de générer des des scènes vidéos détaillées à partir de descriptions textuelles.

OpenAI, la célèbre organisation de recherche en intelligence artificielle, a présenté Sora, son nouveau modèle de conversion de texte en vidéo. Sora est capable de créer des vidéos d’une durée maximale de 60 secondes, présentant des scènes très détaillées, des mouvements de caméra complexes et plusieurs personnages aux « émotions vibrantes« . Le modèle utilise une technique appelée ‘neural rendering’, qui consiste à synthétiser des images à partir de données latentes.

Avant de rendre Sora disponible dans les produits d’OpenAI, l’organisation assure prendre plusieurs mesures de sécurité importantes. Elle travaille actuellement avec des « red teamers », des experts dans des domaines tels que la désinformation, les contenus haineux et les préjugés, qui testeront le modèle de manière contradictoire. L’objectif est de s’assurer que Sora ne produise pas de vidéos nuisibles, trompeuses ou offensantes.

OpenAI a partagé sur Twitter (X) plusieurs essais vidéos réalisés avec son nouveau modèle de conversion. Les vidéos montrent la diversité et la créativité de Sora, qui peut générer des scènes allant d’une ville enneigée de Tokyo à un monde en papier d’un récif corallien, en passant par un trailer de film d’un homme de l’espace portant un casque de moto en laine rouge. Les vidéos sont impressionnantes par leur qualité visuelle, leur fluidité et leur réalisme.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS

— OpenAI (@OpenAI) February 15, 2024

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB

— OpenAI (@OpenAI) February 15, 2024

Prompt: “A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.” pic.twitter.com/gzEE8SwP81

— OpenAI (@OpenAI) February 15, 2024

Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6

— OpenAI (@OpenAI) February 15, 2024

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

— OpenAI (@OpenAI) February 15, 2024

Une nouvelle fois, Sora ouvre de nouvelles possibilités pour la « création de contenu vidéo », mais va clairement poser des défis éthiques et sociaux, comme la vérification de la source et de la véracité des vidéos, ou la protection des droits d’auteur et de la vie privée.