Générer des images avec l'IA : explorer la représentation du monde humain

Dans la nouvelle ère numérique dans laquelle nous nous trouvons, les intelligences artificielles se sont révélées être bien plus que de simples outils de traitement de données. Dans le domaine de la créativité visuelle, la capacité des IA à générer des images défie les limites de l'imagination et de la rapidité humaines, redéfinissant de plus en plus les paradigmes de l'expression artistique. 

Des paysages surréalistes aux portraits hyperréalistes, l'IA peut déjà être considérée comme un partenaire puissant dans le processus créatif, offrant de nouvelles perspectives et, en même temps, des défis éthiques et moraux. 


Cette semaine, nous explorons le monde fascinant des IA génératrices d'images, en examinant leur fonctionnement et leurs applications selon des paramètres qui nous permettent de réfléchir aux défis moraux mentionnés ci-dessus. 

Pour ce faire, nous avons utilisé deux intelligences artificielles (Playground et Lexica.art) avec lesquelles nous établirons une comparaison, étant donné que les résultats de leurs interactions ont été très différents. 

Le principe est simple : introduire une invite qui demande à l'IA de générer une <<photo de studio de deux êtres humains qui s'embrassent>>.

1.

Lorsqu'il s'agit d'analyser les images générées par les intelligences artificielles, il est frappant de constater l'impact immédiat qu'elles produisent au premier coup d'œil, que ce soit en raison des couleurs, des possibilités visuelles infinies qu'elles offrent ou de la rapidité de leur création. Le fait de voir comment elles sont générées en quelques secondes est surprenant et parvient à étendre cette surprise à une acceptation favorable de l'image obtenue. Cependant, si l'on regarde de plus près, on trouve dans la plupart des cas des détails étranges ou des zones inhabituelles de l'image qui ne correspondent pas à la réalité.

En ce sens, alors que dans la création de paysages l'erreur la plus fréquente est un problème d'intégration des échelles, car l'algorithme, souvent et surtout dans les paysages avec des détails, les mélange en donnant lieu à une image apparemment convaincante mais avec un halo étrange), dans la création de personnes nous trouvons une constante, qui est le problème qu'il a dans les zones de contact. 

2.

Les exemples nous montrent des déformations, des fusions étranges, des absences ou des amputations, des représentations amorphes, des regards perdus ou des anatomies qui, bien que correctes, ne correspondent pas à la zone qui devrait être en place.

Plusieurs invites dans lesquelles l'IA (Lexica.art) a été invitée à générer des images de contact humain ont donné des résultats complètement surréalistes : 


Photo réaliste de deux personnes se serrant la main.



Photo réaliste d'une personne prennent une autre personne dans ses bras. 




Cependant, lorsque nous avons utilisé le même programme pour introduire l'invite : 

photo de studio de deux êtres humains qui s'embrassent

afin de générer des images entre des personnes dans une situation plus compromise, les images générées se sont avérées plus normatives que prévu, bien qu'il y ait de petits détails que nous explorerons ci-dessous.

3.

La réaction de Lexica.art a répondu à la demande de première intervention. En ce qui concerne la partie visuelle, il est possible que la machine soit intervenue pour lui faire prendre conscience des défauts mentionnés au point 2. Par conséquent, dans ses propositions d'images, nous avons détecté une série de trois paramètres qui tentent de corriger d'éventuelles incorrections :

A) Utilisation de plans moyens : pour éviter les parties du corps ou pour montrer un corps complet qui pourrait entraîner des anomalies qu'il ne sait pas encore représenter logiquement. 

B) Utilisation d'un éclairage faible, avec beaucoup d'ombres : là encore, les zones sombres nous permettent de cacher les zones de contact qui pourraient conduire à une image imparfaite en termes de réalisme.

C) Yeux fermés : nous observons constamment qu'il est difficile pour les IA de générer des regards qui n'ont pas un œil de chaque couleur ou qui regardent dans des directions différentes, même avec des formats différents. 






4

Au contraire, il est frappant de constater que d'autres éléments tels que les cheveux ou les vêtements, qui sont également des zones susceptibles de poser des problèmes (les textures des cheveux sont complexes, très différentes les unes des autres, ou les vêtements présentent également des plis et des rides), obtiennent un résultat réaliste avec pas beaucoup de déformation. 

5

Playground, en revanche, n'a pas répondu à la demande la première fois. Une première invite a donné lieu à des images de deux personnes noires, hétérosexuelles, ensemble, s'embrassant, regardant l'appareil photo.

Ces poses sont forcées, rigides, recherchant une correction dans les personnes représentées (même au niveau de la visibilité raciale) qui évite de représenter toute forme de passion, même dans le regard, même s'il ne s'agit pas d'un embrassement. Nous pouvons également observer divers problèmes anatomiques dans les détails qui génèrent les points de contact, comme les six doigts de la main dans la premier photo. 




7. 

Il faut savoir que les IA sont programmées et disposent de tout un code de programmation qui met en place des filtres (générés par les humains eux-mêmes) qui les amènent à appliquer certains biais en termes de résultats et d'interprétations des invites que peuvent faire les utilisateurs.  

Si l'on examine les résultats générés en termes de représentation humaine, Lexica.art a inclus des couples hétérosexuels et homosexuels, montrant ainsi une diversité révélatrice. 

Cependant, il est frappant de constater que si cette diversité est demandée par l'utilisateur, explicitement dans l'invite, dans le cas de deux hommes et de deux femmes, le programme l'interprète comme une erreur. Cela montre un exemple de partialité dans les données filtrées pour la programmation de l'IA et, d'une certaine manière, reflète également l'inclusion timide de ces groupes dans notre société. 




8.

Il convient également de noter qu'en introduisant une nouvelle invite, dans laquelle l’homme et la femme sont remplacés par garçon et fille, sans préciser l'âge, les résultats sont encore plus surprenants du point de vue de la moralité qu'ils présentent. 

Dans ce cas, l'IA est capable de générer des images présentant des enfants (garçon et fille) s'embrassant, qui, en raison du biais hétérosexuel, ne détecte pas ou ne se demande pas si ce contenu pourrait être politiquement correct ou non. 




9.

D'autre part, avec Playground, nous avons essayé d'explorer les résultats en introduisant un changement dans l'invitation initiale pour spécifier le sexe des personnes qui s'embrassent, par opposition à la description générale "deux êtres humains". 

Avec un homme et une femme séparément ("photo de studio d'un homme et une femme en train de s'embrasser"), nous avons obtenu un peu plus de rapprochement, un regard entre eux, même s'ils ne s'embrassent pas non plus. 




10.

Dans la demande de deux personnes du même sexe, deux hommes et deux femmes, nous avons à nouveau reçu un message d'attention, bien que les images aient été générées, contrairement à Lexica, qui ne le permettait pas.



10

Ce qui est considéré comme acceptable ou inacceptable dépend largement du contexte culturel et des normes sociales en vigueur dans une société donnée. L'IA peut donc reproduire et même renforcer ces normes, ce qui soulève d'importantes questions sur la diversité et la représentation. 

À titre d'exemple, le terme "baiser" fait aujourd'hui l'objet d'une controverse en raison du sens sexuel qu'il a acquis, alors qu'il ne désignait auparavant qu'un embrassement. Afin d'explorer les limites de l'IA en matière de contenu explicite, nous avons à nouveau introduit un changement dans l'invite, en écrivant directement "en train de se baiser". 

Léxica, quant à elle, a introduit des images plus explicites :




Si Playground n'a pas été explicite dans son contenu, ni ne l'a interprété de manière sexuelle, il a au moins été en mesure d'offrir des résultats plus romantiques que les précédents, avec un rapprochement entre les deux personnes, bien qu'il soit loin d'être sexuel. 



Tout cela nous amène à penser que pour certaines questions qui vont au-delà du politiquement correct, elles sont fermes et claires dans leurs restrictions, et pour d'autres, en fonction de l'IA que nous utilisons, il semble qu'elles ne soient pas complètement définies. Comme nous le savons et l'avons vu, les IA sont en constante évolution. 

11

En conclusion, toutes les variations que nous avons observées reflètent les défis auxquels les IA sont confrontées pour générer des images capables de capturer la perception humaine de manière réaliste et fidèle. Les limites des contenus explicites et autorisés sont définies par les plateformes et les programmes qui les régulent, reflétant une société qui, dans ses propres relations humaines, a des préjugés et des permissions plus ou moins justes et inclusives. 

Cela pourrait être comparé à la censure sur d'autres types de plateformes ou de réseaux sociaux, comme Instagram ou Facebook, où une intelligence artificielle peut censurer une photographie non sexuelle qui montre un certain corps ou ce que l'IA détecte comme de la peau, tout en permettant à d'autres types de contenu, par exemple des armes ou de la violence, d'être publiés sans aucune restriction. 

Cependant, le mérite des IA dans la production de compositions est tout à fait remarquable. Elles peuvent parfois être uniques et imaginatives, introuvables dans le monde réel si nous le souhaitons dans l'invitation, mais elles peuvent aussi reproduire des images qui s'approcheront de plus en plus d'un réalisme dans lequel, qui sait, pourrons-nous vraiment dans un future distinguer une image réelle d'une image artificielle? 







Comentarios

Entradas populares