Une nouvelle era pour la création d’images avec ChatGPT Images 2.0

Ces dernières années, les générateurs d’images ont connu une évolution spectaculaire, augmentant leur rapidité et leur popularité. Cependant, la beauté d’une image ne garantit pas toujours son utilité pratique. Par exemple, demander un « chat astronaute » est une chose, mais obtenir une affiche de marketing utilisable ou une bande dessinée cohérente en est une autre. C’est précisément ce que souhaite changer OpenAI avec son modèle innovant : déplacer la conversation d’une esthétique pure vers une approche plus fonctionnelle.

La réponse d’OpenAI

OpenAI, sous la direction de Sam Altman, affirme que son nouveau modèle vise à générer non seulement des images attrayantes, mais à traiter des commandements visuels avec une intention réelle. La présentation de ce modèle a révélé une nouvelle philosophie : « les images sont un langage, pas une décoration ». Ainsi, demander une image devrait resembler moins à un tir aléatoire et plus à une commande de produit utilisable.

La pièce manquante : précision et contrôle

Pour se démarquer, OpenAI a identifié trois domaines clés à améliorer : la capacité à suivre des instructions complexes avec précision, l’organisation des éléments dans l’image, et la reproduction fiable de textes denses. L’objectif est clair : non seulement fournir des résultats esthétiques, mais proposer des solutions moins ambiguës et plus contrôlables pour l’utilisateur.

Pensée avant dessin : le raisonnement au cœur du processus

Une des innovations majeures de ChatGPT Images 2.0 est son intégration des capacités de raisonnement. Choisir un modèle avec la fonction « thinking » permet au système de prendre le temps de mieux structurer les tâches, d’effectuer des recherches en ligne pour fournir des informations actualisées, et de revoir ses propres résultats avant de finaliser l’image. Cela a été testé en demandant à générer une image de deux personnes marchant à Gran Vía, à Madrid, tout en fournissant des suggestions sur des activités à réaliser en Espagne en mai.

Chatgpt Images 2 0

Les clés de cette innovation

OpenAI met également en avant des domaines d’application variés, notamment le prototypage de jeux, les storyboards, les créations marketing, les bandes dessinées et les graphiques sociaux, où le contenu et la forme doivent être en harmonie. Pour atteindre ces objectifs, des améliorations notables ont été apportées, notamment dans le traitement de textes non latins et la fidélité à des styles visuels particuliers. Le modèle supporte désormais des format variés, avec des ratios allant jusqu’à 3:1, et la possibilité de générer jusqu’à dix images en une seule commande.

Un contexte compétitif stimulant

Ce lancement ne doit pas être perçu comme une découverte d’un nouveau marché par OpenAI. Des concurrents comme Midjourney, reconnu pour ses travaux artistiques, ou FLUX 2, fort en photographie réaliste, existent déjà. OpenAI semble adopter une approche différente, cherchant à faire de ChatGPT un environnement où la création d’images est intégrée à un flux de travail plus large, augmentant ainsi l’attrait de son produit si ces promesses sont tenues.

Anthropic no ha subido el precio de Claude. Ha inventado algo mejor: la inflación de tokens

Un déploiement progressif

OpenAI a assuré que son modèle ne reste pas en phase de démonstration, mais commence à être accessible aux utilisateurs, y compris ceux des versions Free et Go. Les résultats les plus avancés seront disponibles pour les utilisateurs Plus et Pro. De plus, le modèle sera intégré à l’API, indiquant que la société souhaite élargir son utilisation au-delà de simples interactions de chat. Si l’objectif est de transformer l’image en un véritable outil de travail, ce déploiement stratégique en est un signe fort.

Source d’images : Xataka avec ChatGPT Images 2.0 | OpenAI

Pour en savoir plus, consultez notre analyse sur les implications de la course à l’IA par Amazon.



F1-ES