Les images générées par l’intelligence artificielle prolifèrent sur le Web, mais la source des images utilisées pour les entraîner reste souvent problématique. Un site permet désormais de savoir si vos photos ont été incluses dans la plus grande base de données d’images publiques utilisée pour l’IA.
L’intelligence artificielle (IA) a beaucoup progressé depuis l’apparition de l’apprentissage profond, ou deep learning. L’IA s’appuie sur des réseaux neuronaux pour apprendre à effectuer des tâches seule, avec juste un objectif à atteindre, et aucune autre information. En ce qui concerne plus spécifiquement les images, cela permet la création de deepfakes, ou encore de générer des images à partir de simples phrases comme le font Dall-E d’OpenAI, Imagen de Google ou encore Midjourney.
Toutefois, pour parvenir à ces résultats, les chercheurs doivent entraîner les algorithmes sur des bases de données. Dans le cas des images, la plus grande base de données publique s’appelle Laion-5B et contient 5,8 milliards d’images avec des textes associés. Théoriquement, les images proviennent toutes de sources publiques libres de droits. En réalité, ce n’est pas toujours le cas.
Des images souvent utilisées sans consentement
Un nouveau site baptisé Have I Been Trained? permet d’effectuer une recherche dans cette base de données. Cet outil a été conçu afin que les artistes et photographes puissent découvrir si leurs œuvres ont été utilisées, mais l’outil permet également de savoir si vos propres photos y figurent. Il suffit d’effectuer une recherche en saisissant son nom ou en utilisant sa photo. Le site assure que les images utilisées pour la recherche ne sont pas conservées.
Certains éléments de la base de données sont particulièrement problématiques. Une femme y a notamment retrouvé des photos prises par son médecin après une série de chirurgies de sa mâchoire, des photos qui ne devaient jamais quitter son dossier personnel. La bonne nouvelle est qu’il est facile de savoir d’où proviennent les photos. Laion-5B ne contient pas d’images directement, mais des liens vers celles-ci. Un simple clic droit permet donc de retrouver sur quel site elles se trouvent. Il faudra ensuite contacter le responsable du site pour en demander le retrait.
futura