Adieu Photoshop ? Google vient de lancer une nouvelle IA capable de modifier vos images sur simple demande vocale. Fini les heures passées à maîtriser des logiciels complexes, il suffit maintenant de demander à l’IA d’ajouter un chapeau à votre grand-mère ou de transformer votre salon en jungle tropicale.
Google vient d’améliorer Gemini 2.0 Flash, un modèle capable de générer et d’éditer des images aussi facilement qu’il crée du texte.
Une nouveauté sur l’IA de Google, qui s’intègre directement dans une interface de chatbot, promet de démocratiser l’édition d’images et de bouleverser notre rapport à la retouche photographique.
Lancé la semaine dernière et désormais accessible à tous via Google AI Studio, Gemini 2.0 Flash se distingue par sa capacité à traiter à la fois le texte et l’image au sein d’un même modèle d’IA. Cette approche multimodale marque une rupture avec les solutions existantes, qui faisaient généralement appel à des modèles distincts pour la génération de texte et d’images.
Gemini 2.0 Flash se veut encore plus polyvalent qu’avant
Les capacités de Gemini 2.0 Flash en termes de retouche photo sont vastes et variées :
_Ajout ou suppression d’objets dans une image
_Modification des décors et de l’éclairage
_Changement d’angle de vue
_Zoom avant ou arrière
Suppression de filigranes (bien que cela puisse affecter la qualité de l’image)
D’après Google, cette polyvalence est rendue possible grâce à un entraînement sur un vaste ensemble de données combinant images et textes. Le modèle intègre ainsi une compréhension profonde des concepts visuels et textuels, lui permettant de générer directement des images en réponse aux requêtes des utilisateurs.
L’approche de Google se démarque de celle d’autres géants de la tech comme OpenAI, qui utilise des modèles distincts pour le texte (ChatGPT) et l’image (DALL-E).
D’un point de vue technique, vous l’imaginez, le traitement simultané du texte et de l’image est extrêmement gourmand en ressources de calcul. Cela explique en partie pourquoi la qualité des images générées par Gemini 2.0 Flash n’atteint pas encore celle des modèles spécialisés comme DALL-E.
La mauvaise nouvelle, c’est que sur le plan éthique, la facilité avec laquelle ces modèles multimodaux peuvent manipuler des images soulève des inquiétudes légitimes.
La création de deepfakes convaincants ou la manipulation de photos à des fins malveillantes pourraient devenir encore plus simples, ce qui pose de nouveaux défis en matière de désinformation et de protection de la vie privée.
phandroid