Text-zu-Bild-Generierung: wenn Codes malen

Schöne neue Bilderwelt: KI-generated Images, Machine Learning Imagery - durch Software („Künstliche Intelligenz“) erstellte Bilder

Kaum ein Thema mischt die visuelle Branche zur Zeit so auf wie KI-generated Images, Machine Learning Imagery – durch Software („Künstliche Intelligenz“) erstellte Bilder. Den Auftakt gab im Januar Panthermedia mit der Kollektion künstlich erzeugter Portraits als Alternative zu Bildern, zu denen Freigaben realer fotografierter Menschen benötigt würden. Diese werden als „DSGVO-sicher“ beworben.

Schon im Juni 2021 begeisterte sich Mark Milstein, CEO bei Mikrostock in DAM News für synthetischen Medien „…die es Anwendern ermöglicht, endlos einzigartige, maßgeschneiderte Fotos zu generieren, mit geringen oder gar keinen Lizenzgebühren, keinen rechtlichen Einschränkungen und ohne die Sorge, dass Konkurrenten eventuell das gleiche Bild benutzen … „ 

In den letzten Tagen schwärmten Netzpolitik.org, DER SPIEGEL und andere Medien von Stabel Diffusion, DALL-E 2, Imagen Crayion und Midjourney als Tools für jedermann, via Text-zu-Bild-Generierung fotorealistische „Kunstwerke“ individuell – d.h. an eigene Suchbegriffe angelehnt – zu erstellen. 

Keine Lizenzgebühren, keine rechtlichen Einschränkungen, keine gleichen Bilder mehr, per Texteingabe zum perfekten Bild? Hört sich nach goldenen Zeiten für Bildnutzer und Contenthersteller an.

Wie immer ist nicht alles Gold, was glänzt. 

Wie kommen die Bilder zustande? Die Software durchsucht Millionen von verschlagworteten Bildern zu den abgefragten Stichworten und stellt daraus bearbeitete Montagen her.

Die eingesetzten Bilder sind erstens schon vorhanden, zweitens oft urheberrechtlich und persönlichkeitsrechtlich geschützt. 

Quellen sind u.a. Onlineformate von Zeitungen und Magazinen, Pinterest, WordPress-basierte Seiten, Bildagenturen, Mikrostockplattformen wie Adobe Stock, 123RF, iStock, u.a. sowie Wikimedia und Anbieter von Kunstprints und Postern.

screenshot Laion-datasette.io, 01.09.2022, Trainingsquelle iStockphoto

Ob die von der Software durchsuchten Bilder überhaupt für kommerzielle Zwecke zu solchen Montagen genutzt werden dürfen, ist offen. Andy Baio weisst in seinem sehr lesenswerten Blog waxy.org darauf hin, dass solche Systeme, die Millionen von Bildern durchsuchen um die Montagen zu generieren, sicherlich nicht entwickelt worden wären, wenn die Erlaubnis der Urheber dazu notwendig gewesen wäre.

Eine gewisse Vorsicht zeigt sich bei bei den Nutzungsvorgaben von DALL-E, hier wird auf die explizit nicht-kommerzielle Nutzung verwiesen und die Achtung der Rechte von Urhebern und abgebildeter Personen eingefordert. Nicht-fiktive, markengeschützte Charaktere wie MickyMaus verarbeitet DALL-E 2 im Gegensatz zu Stabile Diffusion nicht. Der Verzicht ist hier wohl dem Respekt vor der Rechtsabteilung von Disney geschuldet. Auch andere KI-Trainer haben inzwischen Gesichter prominenter Personen oder „anstössige“ Szenen aus dem Fundus entfernt. Hier spielt die Angst vor Klagen und die Angst vor Sperrungen in den sozialen Medien auf Grund deren Sittlichkeitsstatuten eine große Rolle.

Neben urheberrechtlichen, markenrechtlichen oder persönlichkeitsrechtlichen Problemen, die sich aus der Nutzung dieser Bildquellen ergeben können, heisst das auch, dass die Quellen für das ach so individuelle Werk Standards zeigen, die so oder ähnlich tausendfach existieren z.B. auf Mikrostockplattformen angeboten und natürlich von tausenden Nutzern lizensiert wurden. Ein individueller Look sieht anders aus.

Wertneutrales, objektives Training gibt es nicht. Algorithmen spiegeln die Einstellung der Trainer, deren Auswahl des Trainingsmaterials.

screenshot Laion-datasette.io, 01.09.2022

Screenshot Laion-datasette.io, 01.09.2022, Bilder Ästhetik >6

Die Anbieter geben an, dass die Suchergebnisse sich aus einer englischsprachigen Verschlagwortung und einer Wertung der „ästhetisch ansprechendsten Bilder“ ergeben. Der Algorithmus „ästhetisch ansprechend“ an sich ist schon wertend. Grundlage für das Lernen der Software waren Befragungen von Personen. Wie diese Personengruppe zusammengestellt war, spielt an sich schon eine Rolle. Was als ästhetisch empfunden wird, hängt vom Kulturkreis ab. Was im gezeigten Beispiel eine Einordnung auf der Ästhetikskala von Liaon ein 6+ (Skala von 1 bis 10) rechtfertigt, erschließt sich nicht intuitiv und wird sicherlich nicht von jedem geteilt.

Auch die Einordnung von Suchbegriffen und verschlagwortetem Text ist nicht wertfrei.

screenshot Laion-datasette.io, 01.09.2022

Screenshot Laion-datasette.io, 01.09.2022, Suchbegriff „beautiful Woman“

Die Suche nach „Beautiful Young Woman“ zeigt bevorzugt Fotografien von Brünetten aus dem kaukasischem Bereich, die Suche „Old Woman“ generiert neben sehr vielen Gemälden und Zeichnungen  journalistische, dokumentarische Portraits von indigenen Frauen aus Asien. Sobald Elderly Woman gesucht werden, tauchen auf einmal auch kaukasische Frauen in den Suchergebnissen auf. In jedem Fall werden nur Bilder mit Ästhetikfaktor 6+ angezeigt. “Westliche“ Kultur wird schon durch die Suche nur nach englischsprachigen Schlagworten dominierend. 

Die Ergebnisse sind trotz Hype in bestimmten Communties noch nicht berauschend. Das klassische fotografische Firmenportrait oder die journalistische Fotografie werden sie nicht ersetzen – Fotografen bilden die Realität vor der Kamera ab, KI montiert Vorhandenes, schon Gesehenes.

Noch sind viele der Anwendungen Beta-Versionen und nur nach Registrierung teilweise kostenfrei einsetzbar. Beliebteste Motive sind noch Fun-Bilder, Phantasielandschaften und -personen.

Es stellen sich aber jetzt schon viele Fragen zu Machine Learning Imagery.

Eine Gefahr liegt im Einsatz der Software zum Verändern von Bildern. Die Diskussion um den Wahrheitsgehalt von Fotos wird geführt, seit es Fotografie gibt. Seit der digitalen Bearbeitung und der immer mehr auch für Nicht-Profis nutzbaren Tools ist das Phänomen im Alltag angekommen. Nicht nur die Diskussion um die „Echtheit“ und „Natürlichkeit“ von Instagram-(selbst-)Portraits zeigt dies, sondern auch die wachsenden Zweifel an nachrichtlichen Bildern, an dokumentarischen Fotografien und Filmen.

Das Aufhübschen des langweiligen Fotos mit neuen Elementen geht nun noch schneller und komfortabler als mit bisheriger Software, Fake-Fotos  von Prominenten für nachrichtliche Medien oder Social-Media sind schnell zu erstellen, Szenarien wie Kriegshandlungen, Katastrophen, Demonstrationen können schnell erzeugt und verbreitet werden.

Zum anderen wird die Vorgaben gelernter visueller Werte und ästhetischer Einschätzungen durch die Trainer der verschiedenen Softwaremodelle die Vielfalt visueller Gestaltung und individueller Stile untergraben. Bildsprache, Gestaltungsstile vereinheitlichen. Das immer wieder Beziehen auf bewertetes Vorhandenes lässt wenig Raum für das Wahrnehmen und den Erfolg von Neuem.

Die kostenfreie, nicht genehmigte Nutzung von durch Urheber geschaffener Werke für das Training der Software mag an sich schon ethisch zweifelhaft sein.

Die kommerzieller Anwendung als lizenzierbare Kollektionen synthetischer Bilder (die Portraits bei Panthermedia sind nur ein Anfang) oder als Aufmacher / Kommunikationsmittel für Unternehmen und Brands entwertet wieder einmal die Arbeit von Fotografen und Illustratoren zu beliebig nutzbarem visuellen Content. Nutzungshonorare für die in den digitalen Montagen verwendeten Bilder dürften deren Urheber erst einmal nicht erwarten.

Dies und andere rechtliche Fragen sind noch nicht geklärt.

 

 

Bildquelle Beitragsbild: © Sabine Pallaske Fotografie,

Quelle Screenshots: Laion-datasette.io, 01.09.2022

 

Kommentar hinzufügen

Ihre E-Mail Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert