avril 29, 2024

BreaGeek News

Obtenez toutes les dernières nouvelles et rapports sur la FRANCE ici. Manchettes, politique et culture françaises sur une chaîne d'information

Le dernier générateur vidéo IA de Google présente des situations incroyables d'animaux mignons

Le dernier générateur vidéo IA de Google présente des situations incroyables d'animaux mignons

Agrandir / Images fixes d'exemples vidéo générés par l'IA fournies par Google pour le modèle de composition vidéo Lumiere.

Google a annoncé mardi Lumièreun générateur vidéo IA appelé « Modèle de diffusion spatio-temporelle pour la génération de vidéos réalistes » dans Feuille de préimpression d'accompagnement. Mais ne nous faisons pas d'illusions : il fait un excellent travail en créant des vidéos d'animaux mignons dans des scénarios idiots, comme utiliser des patins à roulettes, conduire une voiture ou jouer du piano. Bien sûr, il peut faire plus, mais il s’agit probablement du générateur vidéo alimenté par l’IA de texte vers animal le plus avancé à ce jour.

Selon Google, Lumiere utilise une structure unique pour générer toute la durée d'une vidéo en une seule fois. Ou comme le dit l'entreprise : « Nous proposons une architecture U-Net spatio-temporelle qui génère la durée temporelle complète d'une vidéo à la fois, via un seul passage dans le modèle. Ceci contraste avec les modèles vidéo existants qui assemblent des vidéos longue distance. images clés suivies d'une super résolution temporelle – « C'est une approche qui rend difficile l'obtention d'une cohérence temporelle globale. »

En termes simples, la technologie de Google est conçue pour gérer simultanément les aspects de l'espace (où se trouvent les choses dans la vidéo) et du temps (comment les choses bougent et changent tout au long de la vidéo). Ainsi, au lieu de créer une vidéo en assemblant de nombreuses petites parties ou images, il peut créer la vidéo entière, du début à la fin, en un seul processus transparent.

READ  WhatsApp travaille sur des avatars animés pour les photos de profil et les masques d'appel vidéo

La vidéo promotionnelle officielle accompagnant l'article « Lumiere : Un modèle de diffusion spatio-temporelle pour la génération vidéo », publiée par Google.

Lumière peut également réaliser de nombreux trucs de fête, joliment présentés avec des exemples. Page de démonstration Google. Par exemple, il peut effectuer une conversion texte en vidéo (conversion d'une invite écrite en vidéo), convertir des images fixes en clips vidéo, créer des vidéos dans des styles spécifiques à l'aide d'une image de référence, appliquer un montage vidéo cohérent à l'aide d'invites textuelles et créer Segments cinématographiques En déplaçant des zones spécifiques de l'image et en affichant la vidéo com. Capacités (par exemple, ils peuvent changer le type de tenue vestimentaire qu'une personne porte).

Dans l'article Lumière, des chercheurs de Google ont rapporté que le modèle d'IA produisait des vidéos de cinq secondes à une résolution de 1 024 x 1 024 pixels, qu'ils qualifient de « basse résolution ». Malgré ces limitations, les chercheurs ont mené une étude sur les utilisateurs et ont affirmé que la sortie de Lumiere était préférable aux modèles de synthèse vidéo basés sur l'IA.

En ce qui concerne les données de formation, Google n'a pas précisé d'où provenaient les vidéos introduites dans Lumiere, écrivant : « Nous formons notre propre appareil T2V. » [text to video] Modélisez sur un ensemble de données contenant 30 millions de vidéos ainsi que leur légende de texte. [sic] Les vidéos durent 80 images à 16 ips (5 secondes). Le modèle de base a été formé sur 128 x 128. »

Schéma montrant les composants d'un modèle Lumiere AI, fourni par Google.
Agrandir / Schéma montrant les composants d'un modèle Lumiere AI, fourni par Google.

La vidéo générée par l’IA en est encore à ses balbutiements, mais sa qualité a progressé au cours des deux dernières années. En octobre 2022, nous avons couvert le premier modèle de composition d'images de Google révélé publiquement, Imagen Video. Il peut créer de courtes vidéos de 1 280 x 768 à partir d'une invite tapée à 24 images par seconde, mais les résultats n'étaient pas toujours cohérents. Avant cela, Meta a lancé son propre générateur vidéo AI, Make-A-Video. En juin de l'année dernière, le modèle de composition vidéo Gen2 de Runway a permis la création de vidéos de deux secondes à partir d'invites textuelles, créant ainsi des publicités surréalistes et satiriques. Et en novembre, nous avons abordé la diffusion vidéo stable, qui permet de créer de courts clips à partir d'images fixes.

READ  Au sein de la flotte de lunettes intelligentes ChatGPT des marques originales

Les sociétés d'IA proposent souvent des générateurs vidéo d'animaux mignons, car il est actuellement difficile de générer des humains cohérents et non déformés, d'autant plus que nous, les humains (vous êtes des humains, n'est-ce pas ?), sommes doués pour remarquer les imperfections du corps des gens ou de leur façon de bouger. Il suffit de regarder Will Smith, généré par l'IA, en train de manger des spaghettis.

À en juger par les exemples de Google (et sans l'utiliser nous-mêmes), Lumiere semble surpasser les autres modèles de création vidéo basés sur l'IA. Mais comme Google a tendance à garder ses modèles de recherche sur l'IA près de sa poitrine, nous ne savons pas quand le public aura l'occasion de les essayer par lui-même.

Comme toujours, lorsque nous voyons les modèles de synthèse texte-vidéo devenir plus performants, nous ne pouvons nous empêcher de penser… Implications futures Pour notre société en ligne, qui repose essentiellement sur le partage d’éléments médiatiques – et sur l’hypothèse générale selon laquelle les vidéos « réalistes » représentent généralement des choses réelles dans des situations réelles capturées par une caméra. Les futurs outils de composition vidéo plus performants de Lumiere rendront la création de deepfakes trompeurs extrêmement facile.

À cette fin, les chercheurs ont écrit dans la section « Impact sociétal » de l’article Lumière : « Notre objectif principal dans ce travail est de permettre aux utilisateurs novices de créer du contenu visuel de manière créative et flexible. [sic] Cependant, il existe un risque d'utilisation abusive visant à créer du contenu faux ou préjudiciable à l'aide de notre technologie, et nous pensons qu'il est nécessaire de développer et de mettre en œuvre des outils pour détecter les biais et les cas d'utilisation nuisibles afin de garantir une utilisation sûre et équitable.

READ  Nouvelle housse respirante spécialisée, vêtements de vélo respectueux de l'environnement, pneus de gravier Continental et kit élégant