mai 2, 2024

BreaGeek News

Obtenez toutes les dernières nouvelles et rapports sur la FRANCE ici. Manchettes, politique et culture françaises sur une chaîne d'information

Le nouveau générateur d’images IA d’OpenAI repousse les limites avec des détails et une résolution rapides – Ars Technica

Le nouveau générateur d’images IA d’OpenAI repousse les limites avec des détails et une résolution rapides – Ars Technica

Mercredi, OpenAI Annoncer DALL-E 3, la dernière version du modèle de synthèse d’images AI qui offre une intégration complète avec ChatGPT. DALL-E 3 affiche les images en suivant de près les descriptions complexes et en gérant la création de texte dans l’image (comme les étiquettes et les balises), ce qui constitue un défi pour les modèles précédents. Actuellement en aperçu de recherche, il sera disponible pour les clients ChatGPT Plus et Enterprise début octobre.

Comme son prédécesseur, DALLE-3 est un générateur de texte en image qui crée de nouvelles images basées sur des descriptions écrites appelées invites. Bien qu’OpenAI n’ait publié aucun détail technique sur DALL-E 3, le modèle d’IA au cœur des versions précédentes de DALL-E a été formé sur des millions d’images créées par des artistes et photographes humains, dont certaines sont sous licence stock. des sites comme Shutterstock. DALL-E 3 suit probablement la même formule, mais avec de nouvelles techniques de formation et un temps de formation informatique plus long.

À en juger par les exemples fournis par OpenAI sur son blog promotionnel, DALL-E 3 semble être un modèle de photomontage radicalement plus performant que tout autre modèle disponible en termes d’invites suivantes. Bien que les exemples d’OpenAI aient été soigneusement choisis pour leur efficacité, ils semblent suivre fidèlement et de manière convaincante des instructions rapides pour restituer les objets avec un minimum de distorsions. Par rapport à DALL-E 2, OpenAI affirme que DALL-E 3 optimise plus efficacement les petits détails comme les mains, créant des images pratiquement attrayantes sans avoir besoin de piratage ou d’ingénierie rapide.

En comparaison, Midjourney, un modèle de synthèse d’images IA concurrent d’un autre fournisseur, affiche bien des détails réalistes, mais nécessite toujours une quantité importante de bricolages peu intuitifs avec les invites pour obtenir un contrôle sur la sortie de l’image.

READ  Les prix du Samsung Galaxy S22 viennent de basculer pour les trois modèles - ce qui est une mauvaise nouvelle

Le DALL-E 3 semble également gérer le texte dans les images d’une manière que ses prédécesseurs ne pouvaient pas (certains modèles concurrents comme le Stable Diffusion XL et Floyd profond Ils s’améliorent.) Par exemple, un dessin animé d’avocat avec la citation du personnage a été parfaitement créé, un message comprenant les mots : « Illustration d’un avocat assis sur la chaise d’un thérapeute disant ‘Je me sens si vide à l’intérieur’ avec un trou de la taille d’un cratère au milieu.  » Encapsulé dans une bulle.

Notamment, OpenAI indique que DALL-E 3 a été « construit nativement » sur ChatGPT et arrivera en tant que fonctionnalité intégrée de ChatGPT Plus, permettant des améliorations conversationnelles des images d’une manière qui utilise l’assistant IA comme partenaire de brainstorming. Cela signifie également que ChatGPT sera capable de générer des images basées sur le contexte de la conversation en cours, ce qui pourrait conduire à de nouvelles fonctionnalités. L’assistant Bing Chat AI de Microsoft, également basé sur la technologie OpenAI, est capable de créer des images dans le chat depuis mars.

La théière qui a créé la tempête

Image générée par l'intelligence artificielle de DALL-E 3
Agrandir / Image générée par l’IA DALL-E 3 d’un « rendu 3D d’une tasse de café placée sur un rebord de fenêtre pendant une journée venteuse. La tempête à l’extérieur de la fenêtre se reflète dans le café, avec des éclairs miniatures et des vagues turbulentes visibles à l’intérieur de la tasse.  » La pièce est faiblement éclairée, ce qui ajoute à l’atmosphère dramatique.

OpenAI

La version originale de DALL-E apparu en janvier 2021, et OpenAI a lancé sa suite considérablement plus performante en avril 2022, lançant une nouvelle ère d’images générées par l’IA avec une fanfare si étonnante qu’elle a captivé ses premiers bêta-testeurs fermés. Les modèles DALL-E utilisent une technologie appelée Propagation latente Cela affine le bruit en images qu’il « reconnaît » grâce aux connaissances acquises grâce à la formation sur l’ensemble de données et aux conseils du vecteur. La même technologie a permis au modèle de poids ouvert Stable Diffusion d’émerger en août de l’année dernière.

READ  La série PS4 Uncharted de Naughty Dog arrive sur PC

Compte tenu de la manière dont DALL-E apprend des concepts sur les images lors de la formation en exploitant un ensemble massif de données d’œuvres d’art générées par l’homme, la technologie de génération d’images IA a été très controversée depuis son introduction l’année dernière. Cette technologie a suscité des protestations de la part d’artistes qui craignent qu’elle remplace ou reproduise leurs méthodes de manière contraire à l’éthique, des poursuites pour violation du droit d’auteur basées sur des images volées utilisées comme données de formation sans consulter les détenteurs des droits d’auteur, et de nouvelles décisions du Copyright Office en matière de droits d’auteur. . Juge du tribunal de grande instance.

En clin d’œil à ces controverses, OpenAI affirme que DALL-E 3 est conçu pour rejeter les demandes demandant une image dans le style d’un artiste en direct. OpenAI aussi Fournit un modèle Les créateurs peuvent refuser que leurs images soient utilisées pour former de futurs modèles. Il semble peu probable que ces mesures satisfassent les artistes qui pensent généralement que la formation à l’IA devrait être volontaire plutôt qu’incluse par défaut dans les ensembles de données d’images.

comparaison entre
Agrandir / Comparaison de « Une peinture à l’huile expressive d’un joueur de basket-ball en train de plonger, représenté comme une explosion de nébuleuse » créée par DALL-E 2 (à gauche) et DALL-E 3 (à droite).

OpenAI

Actuellement, la politique américaine en matière de droits d’auteur stipule que seules les œuvres d’art créées par l’IA ne peuvent pas bénéficier de la protection du droit d’auteur. Par conséquent, techniquement, toute image créée avec DALL-E 3 tomberait dans le domaine public. Bien qu’OpenAI ne le reconnaisse pas explicitement, il indique que « les images que vous créez avec DALL-E 3 vous appartiennent et n’ont pas besoin de notre autorisation pour les réimprimer, les vendre ou les commercialiser ». Il s’agit d’un changement marqué par rapport à l’année dernière, lorsque OpenAI Utilisation restreinte de l’image DALE-2 Basé sur une licence qui stipule qu’OpenAI « possède toutes les générations ».

READ  Pratt & Whitney Canada dévoile une unité de recharge mobile haute tension avancée

En termes de sécurité, OpenAI affirme que, comme DALL-E 2, il a implémenté des filtres de détection de mots clés et d’images dans DALL-E 3 pour limiter sa capacité à produire du contenu violent, sexuel ou haineux. Le système est également programmé pour rejeter les demandes qui génèrent des photos de personnalités publiques par leur nom, ce qui a causé des problèmes avec le générateur de photos rival Midjourney, alimenté par l’IA, lorsqu’il a créé de fausses photos d’arrestation de Donald Trump.

OpenAI affirme avoir travaillé avec des experts connus sous le nom de « Red Team » pour identifier et atténuer les risques potentiels, tels que les préjugés nuisibles ou la génération de propagande et de désinformation. OpenAI n’a donné aucun mot sur le potentiel de son outil pour ce faire Plier le dossier historique Cependant, avec des insultes à peine déguisées, il affirme expérimenter un outil de « classificateur de source » qui pourrait aider à déterminer si une image a été créée par DALL-E 3 ou non.

Pour le moment, nous n’avons pas encore accès à DALL-E 3 pour le tester, mais OpenAI indique que le générateur d’images AI est actuellement en cours de tests fermés. Il prévoit de le rendre disponible pour les clients ChatGPT Plus et Enterprise « en octobre via l’API et dans les laboratoires plus tard cet automne ».