ÜBERSTROM

KI

(Keine) Überraschung: KI-Bilder sind technisch beeindruckend, aber ohne Tiefe (Teil 1)

von Mario Donick

11.02.2024

Das alte Konzept der nicht-trivialen Maschine zeigt sich gerade besonders stark in KI-Tools wie ChatGPT, DALL-E oder Midjourney. Doch die generierten Inhalte sind oft vorhersehbar und ohne Tiefe.

Eine verzweifelte Lego-Figur an einem Schreibtisch mit Computer

Gliederung

  1. "Überrasch' mich!"
  2. "Copilot" als Versuch der Normalisierung generativer Systeme
  3. Nicht-triviale Maschinen
  4. Ungewissheit der KI-Nutzung
  5. Nicht-trivial banal
  6. Ausblick auf Teil 2

1. "Überrasch' mich!"

Vor kurzem recherchierte ich für ein Buchprojekt (ETA: 2025-26), in dem historische, ästhetische und phänomenologische Aspekte von Programmierung, Algorithmen und "KI" verknüpft werden. Neben dem Schreiben von Programmcode, der Arbeit mit Bildbearbeitungsprogrammen (Photoshop) und älteren Algorithmen-basierten Verfahren zur Bild-, Text- und Klangerzeugung muss ich - da kommt man derzeit nicht drumrum - natürlich auch generative Deep-Learning-Verfahren behandeln.

Seitdem spiele ich immer wieder mit verschiedenen "KI"-Systemen, u.a. mit dem "KI"-Chat von Microsofts Suchmaschine Bing. Der mittlerweile Copilot genannte Chat nutzt die OpenAI-Produkte GPT und DALL-E, um Textanfragen zu beantworten und Bilder zu generieren. "Überrasche mich mit einem Bild", gab ich dem System daher zur Aufgabe. Und erhielt: Ein Kaninchen, einen Pinguin und ein Ufo am Strand, am wolkenverhangenen Himmel ein leuchtender Regenbogen. Was für eine Enttäuschung.

Ein Pinguin und ein Kaninchen am Strand, am wolkenverhangenen Himmel ein Ufo, dahinter ein Regenbogen
Prompt: "Überrasche mich mit einem Bild"

Seit etwas über einem Jahr sind generative Deep-Learning-Verfahren - etwas überschwänglich als Künstliche Intelligenz (KI) bezeichnet - im Alltag angekommen. Insbesondere Sprachmodelle (Large Language Models, LLMs, z.B. GPT) und bilderzeugende Modelle (Generative Adversarial Networks, GANs, z.B. DALL-E und Midjourney) faszinieren mit ihrem scheinbaren Sprachverständnis. Ihre Fähigkeit, uns zu 'verstehen' und basierend auf unseren Eingaben Texte und Bilder zu erzeugen, die im ersten Moment wie neu erscheinen, verführt - im besten Fall zu ein bisschen Entertainment; im schlimmsten Fall zu unkritischer Übernahme generierter Text- und Bild-Daten, zu deren Erstellung man selbst nicht in der Lage wäre oder die bei menschlichen Produzent*innen in Auftrag zu geben man keine finanziellen Mittel hat oder zumindest nicht investieren möchte.

Hersteller (wie Microsoft mit dem GPT- und DALL-E-basierten "Copilot") suggerieren, dass KI-Systeme unsere Arbeit einfacher und wir als Nutzer*innen kreativer würden. Das ist aus mehreren Perspektiven problematisch.

Erstens sind die moralischen und rechtlichen Fragen der Verwendung generierter Inhalte zahlreich und ungeklärt. Das betrifft u.a. die Ausbeutung von Menschen für das Training der Modelle. Auch die unerlaubte Verwendung urheberrechtlich geschützter Inhalte für das Training ist ein Problem. Weitere Fallstricke sind das Ausgeben generierter Inhalte als eigene Leistung; der extreme Energieverbrauch der Rechenzentren1, auf denen die Modelle laufen; die Generierung von Inhalten mit dem Ziel der Verbreitung von Fake-News, des Mobbings u.ä.; und überhaupt das in der Breite noch fehlende Bewusstsein für das Erkennen generierter Fehlinformationen. Daran wird gearbeitet, aber wirklich geklärt ist da noch nichts.

Zweitens ("überrasch' mich!") stehen solche Systeme in einem Spannungsfeld zwischen dem Unerwarteten (man weiß nie genau, was das System generieren wird, was teilweise ihren Reiz ausmacht) und dem Wunsch nach Gewissheit (auf den ersten Blick brauchbare Lösungen benötigen dann doch Nacharbeiten, mitunter so viele, dass man es zeitsparender besser gleich selbst gemacht hätte). Anders gesagt: Die Ausgaben derzeitiger "KI"-Systeme sind enttäuschend banal, wenn man sich überraschende Ausgaben wünscht und gleichzeitig zu unvorhersehbar, um verlässlich damit zu arbeiten. Damit erfüllen sie derzeit bestenfalls die Möglichkeit der spielerischen Inspiration, was aber angesichts von Ausbeutung und Energieverbrauch als Anwendungsfall kaum überzeugen kann.

2. "Copilot" als Versuch der Normalisierung generativer Systeme

Trotz solcher offener Fragen trägt der Software-Konzern Microsoft gerade in hemdsärmeliger Techsektor-Manier zur Normalisierung der neuen Systeme bei. Microsoft hat seinen GPT- und DALL-E-basierten Bing-Chat in den letzten Monaten tief in seine Bing-Suche, in den Webbrowser Edge, ins Office-Paket und in Windows 11 integriert. Als "Copilot" soll das System offenbar als eines von vielen Werkzeugen den Alltag der Menschen bereichern.

Im Textverarbeitungsprogramm Word beispielsweise kann Copilot Text generieren, transformieren (z.B. Text in Tabellen umwandeln) und zusammenfassen. Laut Microsoft mache Copilot "Ihr Schreiben effizienter und kreativer". Das ist ein Versprechen, das verführt. Endlich nicht mehr stundenlang schreib-blockiert vor dem leeren Blatt sitzen!

Jedoch: In den häufig gestellten Fragen (FAQ) zu Copilot in Word2 weist Microsoft darauf hin, dass die generierten Inhalte "falsch oder unangemessen sein [können]" und dass sie "auf Sprachmustern, die es im Internet gefunden hat", basieren. Microsoft fordert Nutzer*innen folglich auf: "Lesen Sie daher unbedingt, was [Copilot] schreibt, und verwenden Sie Ihr eigenes Urteilsvermögen." Und: "Wenn Originalität für Sie ein Problem darstellt, überprüfen Sie die Ähnlichkeit mit Onlinequellen". Einerseits zu versprechen, dass das "Schreiben […] kreativer" wird, aber andererseits (und zurecht) auf mangelnde Originalität hinzuweisen, ist ein Widerspruch, über den man am besten nicht zu lange nachdenkt.

Jedenfalls werden die Verantwortung für die von Copilot erzeugten oder modifizierten Texte sowie die rechtlichen Folgen der Nutzung solcher Texte bei den Nutzer*innen gesehen. Dies ist auch klar, denn im Vorfeld kann nicht erkannt werden, welchen konkreten Text ein LLM generieren wird. Wären die Inhalte, mit denen ein LLM trainiert wurde, bekannt, ließen sich zwar vorsichtige Abschätzungen zur möglichen thematischen Bandbreite sowie zur Gewichtung unterschiedlicher Arten der generierten Inhalte vornehmen. Aber selbst dann bliebe intransparent, welche Texte tatsächlich generiert würden. Analoges gilt für die Generierung von Bildern.

3. Nicht-triviale Maschinen

Mehr noch als andere komplexe Computerprogramme sind generative Deep-Learning-Verfahren nicht-triviale Maschinen im Sinne Heinz von Foersters (1911-2002). Die Unterscheidung trivialer und nicht-trivialer Maschinen ist sehr alt und stammt aus dem Feld der Kybernetik. Der Unterschied beider Maschinen liegt in der Vorhersehbarkeit der Ausgabe der Maschine. Eine triviale Maschine entspricht der Funktion y = f(x), das heißt, wenn sich der Eingangswert x nicht ändert, ist die Ausgabe y stets dieselbe.

Eine nicht-triviale Maschine entspricht dagegen der Funktion y = f (x, z), wobei x als Antriebsfunktion und z als Zustandsfunktion bezeichnet wird. Letztere ist von einem internen, für Beobachter*innen von außen nicht einsehbaren Zustandswert i abhängig. Je nach Wert von i (und damit dem Ergebnis von z) kann bei zwei Durchläufen der Maschine trotz selber Eingabe x eine andere Ausgabe y erfolgen. Erschwerend kommt hinzu, dass das Ergebnis y am Ende rekursiv als neuer Eingangswert x verwendet wird.

Nicht-triviale Maschine nach Heinz von Foerster
Nicht-triviale Maschine nach Heinz von Foerster "Wissen und Gewissen", 1993, S. 247f. (Eigene Darstellung, aus meinem Buch "Nutzerverhalten verstehen - Softwarenutzen optimieren", 2020, S. 8)

Statt von trivialen und nicht-trivialen Maschinen spricht man in der Informatik eher von Zustandsautomaten und Übergangsfunktionen. Sowohl triviale als auch nicht-triviale Maschinen sind endliche Zustandsautomaten, d.h. Modelle, mit denen man die Zustände von Systemen beschreiben kann. Das ist aus heutiger Sicht erstmal nichts Besonderes. Das Entscheidende (und der Grund, warum von Foersters Konzept später für die soziologische Systemtheorie eines Niklas Luhmann so reizvoll war) ist von Foersters Fokus auf Beobachtbarkeit.

Umschlagbild des Buches Wissen und Gewissen
Die wichtigsten der übrigens oft recht humorvollen Arbeiten Heinz von Foersters erschienen 1993 im Buch "Wissen und Gewissen" (Bild: Suhrkamp-Verlag)

Es ging von Foerster nicht in erster Linie um eine Theorie von Automaten, sondern er wollte auf das Problem hinweisen, dass sich mitnichten alle Regelungszusammenhänge vollständig erschließen lassen und somit auch keineswegs immer eine Kontrolle oder Steuerung, wie sie der Kybernetik vorschwebte, möglich war. Dem steht die innere Komplexität vieler Systeme entgegen.

Triviale Maschinen kann man sich von außen oft noch erschließen, denn wenn auf gleiche x auch gleiche y folgen, kann die Funktionsweise der Maschine durch Beobachtung erschlossen werden. Die triviale Maschine ist also nicht nur deterministisch (endlich), sondern auch determinierbar. Das, so von Foerster, ist bei nicht-trivialen Maschinen nicht mehr der Fall. Sie mögen theoretisch ebenfalls deterministisch sein, aber sie sind so komplex, dass ihre Funktionsweise durch Beobachtung ihrer Eingaben und Ausgaben nicht mehr erschlossen werden kann.

Einmal ganz abgesehen von den erkenntnistheoretischen Ansichten3 von Foersters, ist dies eine Beobachtung, die wir beim Umgang mit vielen technischen Systemen im Alltag ständig machen - wir wissen nicht, was der Computer eigentlich gerade tut, ob es sich nun um ein scheinbar 'eingefrorenes' Textprogramm, ein instabiles Internet oder ein generatives KI-System handelt.

Niklas Luhmann bezeichnete Computer daher als Blackbox. Für Beobachter*innen, die keine Kenntnis von den inneren Funktionsweisen eines Programms haben, ist es in der Regel nicht möglich, alle Reaktionen des Programms auf alle möglichen Eingaben vorherzusehen. In vielen Zusammenhängen stört uns das, weil wir etwa eine unangenehme Ungewissheit beim Umgang mit einem Programm spüren, oder weil tatsächlich eine Störung erfolgt - ein "Hängen" des Programms, ein Absturz, oder eine scheinbar völlig falsche Ausgabe, mit der wir nicht 'gerechnet' haben, die wir also weder aufgrund aktueller Beobachtung noch aufgrund früherer Erfahrung erwarten konnten.4

Was uns aber beim Umgang mit gewöhnlichen Programmen stört (weil es z.B. den Arbeitsfluss unterbricht), ist beim Umgang mit generativen Modellen zu einem gewissen Grade erwünscht.

4. Ungewissheit der KI-Nutzung

Generative Modelle sind derzeit wohl der Maximalfall nicht-trivialer Maschinen. Selbst für die Entwickler von LLMs oder bildgenerierenden Modellen ist nicht mehr erkennbar, warum das künstliche neuronale Netz eines generativen Modells zu einem bestimmten Ergebnis führt.

An sich sind die Modellierung eines einzelnen künstlichen Neurons sowie die Rechenoperationen, die zwischen zwei Einzelneuronen vollzogen werden, überraschend einfach5, wie ein Blick in die zahlreichen Lehrbücher zum Thema6 zeigt. Doch praktisch ist ein vollständiges künstliches neuronales Netz so komplex, dass dessen Operationen ganz einfach nicht mehr nachvollzogen werden können. Daher sind die Ausgaben generativer Modelle zunächst immer überraschend, zumindest auf der Ebene des Einzelfalls.

Ein weiterer Versuch mit dem Prompt "Überrasche mich mit einem Bild" einige Wochen nach dem oben gezeigten Pinguin-Ergebnis erzeugte vier Variationen einer Geburtstagsfeier (siehe Titelbild dieses Artikels). Im Zentrum sitzt jeweils eine junge, weiblich lesbare Person auf einem Sofa, hinter der sich offenbar ihre Freunde versammeln. Die typischen Utensilien einer echten "Überraschungsparty" sind alle vorhanden: übertrieben grinsende Gesichter von Menschen mit Partyhütchen und fast korrekter Fingerzahl, viele bunte Luftballons und Wimpel, Konfetti, eingepackte Geschenke, auf einem Bild auch der Versuch eines "Happy Birthday" ("HAPPY BTRTDAYY"; bildgenerierende Modelle haben mit der Erzeugung von Text Probleme). Es könnte ein Standbild aus einer US-Sitcom sein.

Copilot basiert auf GPT-4 und kann Prompts an Microsofts Tool "Designer" weitergeben, in das das bilderzeugende Modell DALL-E integriert ist. Wenn in der Nutzer*in-Eingabe nicht explizit ein Prompt vorgegeben ist, generiert Copilot einen Prompt, den es weitergibt. In dem Beispiel wurde vom Chat der DALL-E-Prompt "Eine Überraschung" generiert und entsprechend umgesetzt. Das System hat nicht versucht, ein Bild zu erzeugen, das die*n aktuelle Nutzer*in (mich) überraschen könnte, sondern hat offenbar als relevantesten Teil der Chateingabe das Substantiv "Überraschung" extrahiert und zur Grundlage eines DALL-E-Prompts gemacht.

Zahlreiche Personen an der Küste, im Stil eines Rubens-Gemäldes, eine Frau hält ein Fischbrötchen, das ihr von einer Möwe weggeschnappt wird
Einmal nicht aufgepasst, schon ist das Fischbrötchen weg. Prompt: "Eine Möwe stiehlt einem Touristen sein Fischbrötchen, als Rubens-Gemälde"

So zumindest erkläre ich mir als Beobachter von außen die Arbeitsweise des Systems. Da ich den inneren Zustand dieses Verbunds aus nicht-trivialen Maschinen7 nicht einsehen kann, bleibt mir nur die Spekulation. Insofern ist natürlich das jeweils generierte Ergebnis durchaus überraschend, da ich nie wissen kann, welchen DALL-E-Prompt der Bing-Chat aus meinem Prompt erzeugen wird. Ohne Angabe eines genauen Prompts lassen sich schnell Muster erkennen: ein irgendwie beliebiger Stil und eine gewisse Willkür in der Auswahl der Bildinhalte.

Mit Angabe eines genauen Prompts lässt sich stärker Einfluss nehmen, z.B. kann der Stil bestimmter Künstler*innen imitiert werden, sofern das Modell darauf trainiert wurde8. Auch der Stil von Pressefotos ist möglich, wenngleich schwer abzuschätzen ist, welche Inhalte genau da generiert werden. Wer sich etwa ein Pressefoto von Bauernprotesten vor dem "Berliner Reichstag" wünscht (siehe Ausblick auf Teil 2), erhält beim ersten Versuch vielleicht schwarzweiß-Aufnahmen wie aus den 1920-30er Jahren. Ein zweiter Versuch einen Tag später mit genau demselben Prompt mag ein modernes 'Farbfoto' aus heutiger Zeit erzeugen.

Im Umgang mit der nicht-trivialen Maschine, der Blackbox, ist völlig unklar, wie eine Eingabe verarbeitet wird. Dennoch können die generierten Bilder für manche Zwecke relevant und brauchbar sein, denn sie können mindestens emotionalisieren. Durch einen ungewohnten Kontrast von Stil und Motiv können sie sogar interessant wirken. Es können fiktive Charaktere aus Filmen und Computerspielen in ungewohnte Situationen versetzt werden, und 'normale' Menschen sowie Tiere in abenteuerliche Szenarien geschickt. Auf die Umsetzung eines Prompts zu warten, ist anfangs immer spannend, v.a. wenn 'witzige' Ergebnisse zu erwarten sind.

Final Fantasy-Figur Cloud Strife mit Herr der Ringe-Figur Gandalf in einem modernen Flugzeugcockpit
Prompt: "Cloud aus Final Fantasy 7 und Gandalf aus Herr der Ringe sitzen im Cockpit eines Flugzeugs, realistisches Foto"
Katze im Matrix-Outfit
Prompt: "Eine Katze im Outfit von Neo aus dem Film 'Matrix' steuert ein Hovercraft durch die Maschinenwelt, Foto wie im Film 'Matrix'"
Pyramid Head aus Silent Hill 2 mit einem Getränk am Strand
Prompt: "Erstelle ein Filmplakat für eine Komödie, auf dem 'Pyramid Head' aus 'Silent Hill' gemütlich am Strand liegt und einen Cocktail schlürft, realistisches Foto, schwarzweiß"

Wenn der Versuch erfolgreich, also das Ergebnis 'witzig' oder überraschend ist, löst sich die Spannung im kurzzeitigen Unterhaltungswert: "Final-Fantasy"-Figur Cloud zusammen mit "Herr-der-Ringe"-Gandalf im Cockpit eines modernen Verkehrsflugzeugs, eine Katze im Neo-Outfit in der "Matrix" oder Pyramid Head aus "Silent Hill" am Strand - alles kein Problem.

Das Generieren solcher Bilder kann glücksspielhafte Züge annehmen. Was wird als nächstes ausgegeben? Wird es diesmal ein Bild, das mich 'umhaut' oder der Vorgabe genau entspricht? Wird der nächste Versuch besser als der letzte?

Dass es bei Microsofts Copilot eine Art virtuelle Währung namens Boosts gibt, verstärkt diesen Eindruck noch. Mit Boosts (dargestellt als gelber, münzenähnlicher Kreis mit einem Blitzzeichen) geht die Erstellung von Bildern schneller. Als Nutzer*in bekommt man täglich neue Boosts, sie können aber auch im Tausch für Microsoft Rewards (ein Prämienprogramm) erworben werden. Das System erinnert an In-Game-Währungen und Glücksspielmechaniken in Computerspielen. Tatsächlich wird man leicht zum ziellosen Rumspielen mit dem Werkzeug verführt.

5. Nicht-trivial-banal

Nachdem man einige Zeit mit den verfügbaren Tools experimentiert hat, stellt sich jedoch Ernüchterung ein. Denn obwohl die generierten Einzel-Bilder in ihren jeweiligen Details nicht vorhersagbar sind und damit der nicht-trivialen Maschine entsprechen, so sind sie doch bald als Exemplare einer Klasse von Erzeugnissen identifizierbar (für von GPT generierte Texte gilt das übrigens ebenfalls).

Selbst bei ausführlichen Prompts fehlen oft gewünschte Aspekte und gleichen sich generierte Bilder schnell auf eine ermüdende Art. Der anfangs faszinierende Überraschungseffekt weicht bald einer Erwartung des Mehr-vom-Ähnlichen und der zunehmenden Erkenntnis, dass den generierten Bildern jede 'Tiefe' (oder, wenn man will, Benjamins "Aura"9) fehlt, wie bei einem technisch perfekt produzierten Popsong, Film oder Spiel, die aber nichts zu sagen haben.

Das kann aber nicht überraschen: Auch die nicht-triviale Maschine ist eine Maschine, die nur auf Anfrage hin prozessiert und sonst stillsteht. Sie nimmt keine spontanen Umweltreize auf und verarbeitet diese. Sie lernt nicht wirklich, jedenfalls nicht im alltäglichen Austausch mit ihrer Umwelt, sondern sie ist ein mathematisches Modell. Dessen innere Zustände sind zwar von außen nicht erkennbar (es ist nicht determinierbar), aber durch seine von vornherein festgelegte Begrenztheit (es ist durch Trainingsdaten und -dauer determiniert) kann es nie etwas wirklich Neues schaffen oder 'verstehen', welche Ideen sich hinter den Prompts, die wir ihm vorsetzen, verbergen.

Ein Modell kann nur remixen, was schon vorher da war. Die menschliche Fähigkeit, spontan etwas völlig Unerwartbares herbeizuspinnen, geht ihm ab. Selbst dass die oben gezeigte Pyramid-Head-Figur im eigentlich einem schwarzweiß-'Foto' nachempfundenen Bild einen blutroten Cocktail hält (womit das Bild im Kleinen, unerwartet, der Prompt-Vorgabe widerspricht), ist im Großen nicht überraschend. Im Kontext von Horror sind schwarzweiß-Bilder mit kleinen Farbakzenten nicht unüblich.

ein dämonisch aussehender Kopf unter einer schwarzen Kopfbedeckung
Prompt: "Darth Vader hat seinen Helm abgenommen, man sieht sein Gesicht, als Foto"

Letzteres zeigte sich übrigens in einem weiteren Test. Darin sollte DALL-E (wieder via Copilot) mir zeigen, wie der Star-Wars-Bösewicht Darth Vader hinter seiner bekannten schwarzen Maske aussieht. Ich wollte wieder wissen, ob das System mich überraschen kann. Es gelang dem System nach einigen misslungenen Anläufen (bei denen der Helm zunächst nicht entfernt war), die Aufgabe zu erfüllen. Allerdings war das, was zum Vorschein kam, jeweils eine generische, 'irgendwie' düstere, 'irgendwie' technisch-dämonische Erscheinung (mit roten Augen in schwarzweiß), in der man jedes und gar kein popkulturelles Horror-Produkt der letzten Jahrzehnte erkennen kann (die Spielereihe "Diablo" kommt mir subjektiv am ehesten in den Sinn).

Auch der Wunsch, scheinbar-historische Fotos zu erzeugen, verschwimmt in Beliebigkeit. Als letztes Beispiel dieses ersten Artikel-Teils seien folgende zwei Bilder gezeigt, die den Alltag in den Achtziger Jahren in der DDR (oberes Bild) und der BRD (unteres Bild) darstellen sollten.

Straßenszene
Prompt: "Ein Foto vom Alltag in der DDR in den Achtziger Jahren, basierend auf den Suchergebnissen"
Straßenszene
Prompt: "Ein Foto vom Alltag in der BRD in den Achtziger Jahren, basierend auf den Suchergebnissen"

Beide Bilder ähneln sich: Sie zeigen eine Straßenszene, in der Menschen um Tisch herum draußen sitzen und essen; dazu mehr oder weniger runtergekommene Wohnhäuser, Fahrzeuge und Pferde. Die dargestellten Inhalte wirken sehr willkürlich zusammengewürfelt; sie wirken vage vertraut, erzeugen definitiv das, was man mit Felix Zimmermann (2023) als "Vergangenheits­atmosphäre"10 bezeichnen kann, aber in der Kombination der gezeigten Elemente sind die Bilder nichtmal als Symbolbild brauchbar. Dem Abgebildeten geht ein konsistenter Charakter als Situation ab, es sind bloße Konstellationen.11

Die zwei Bilder wurden vom Bing-Copilot generiert; der gesamte Prompt inkl. des Teils "basierend auf den Suchergebnissen" wurde von Copilot selbst an den Image Creator und damit DALL-E übergeben. Der Prompt suggeriert, dass die vorher von Bing Copilot in Textform ausgegebenen Informationen zum Leben in beiden Ländern bei der Bildgenerierung berücksichtigt wurden, was aber nicht der Fall ist. Was genau Grundlage der Bilder ist, ist unklar, ebenso, welchen Sinn ich als Beobachter darin erkennen kann.

6. Ausblick auf Teil 2

Allerdings (und deswegen sind solche Systeme trotz ihrer banalen Ergebnisse gefährlich) kommt es auf Korrektheit und Bedeutsamkeit oft gar nicht an. Insbesondere in affekthaft aufgeladenen Zusammenhängen geht es um den momentanen Eindruck, den ein Bild erzeugt; um die Emotion, die es bei den Betrachter*innen hervorruft. Wird etwa in aufgeheizten politischen Messenger-Gruppen ein Bild verbreitet, ist nicht wichtig, ob das Bild auf dem kleinen Handydisplay ein echtes Foto ist oder ob es innere Widersprüche aufweist; für Akteur*innen, die das Bild verbreiteten, steht seine emotionale Wirkung im Moment der ersten Rezeption im Vordergrund.

Daher abschließend noch einmal zu den bereits erwähnten 'Fotos' der Bauernproteste. Sie wurden in einem Test mit dem Prompt "Eine Demonstration frustrierter Bauern vor dem Reichstag, als Pressefoto" generiert:

KI-generierte Bilder von Bauernprotesten
Generierte Bilder von Bauernprotesten; hier bewusst klein dargestellt, um zu zeigen, dass in niedrigen Auflösungen die Echtheit der Bilder schwerer beurteilt werden kann, sie aber dennoch emotionalisieren.

Es ließen sich für die Gegenüberstellung beider 'Fotos' leicht Überschriften finden, die die aktuellen Bauernproteste mit vorgeblichen historischen Protesten in Verbindung brächten; die aktuelle politische Situationen mit 'Zuständen' am Ende der Weimarer Republik verknüpften. In Kontexten, wo es kein oder nur wenig Wissen um historische Vorgänge gibt, würde so etwas vermutlich leichter verfangen als man glaubt. Beim Aufrufen des Bildes in voller Auflösung wäre zwar der 'Fake'-Charakter der Bilder sofort zu erkennen, aber sich darauf zu verlassen, dass so etwas immer geprüft wird, ist ein Fehler.

 

Im zweiten Teil dieses Artikels, der Ende kommender Woche erscheint, gehe ich näher auf das dringende Problem der Erklärbarkeit der nicht-trivialen Maschine bzw. ihrer Ausgaben ein.

 

Titelbild: erstellt mit Microsoft Copilot in Edge am 08.02.2024 mit dem Prompt: "Überrasche mich mit einem Bild.", die vier Einzelbilder wurden manuell in GIMP zusammengefügt.

 

Anmerkungen und Externe Links

1 Der extreme Energieverbrauch von KI-Rechenzentren ist mittlerweile auch in deutschen Massenmedien angekommen. Die Tagesschau berichtete im Oktober 2023, dass der Verbrauch bei "Größenordnungen des Stromverbrauchs ganzer Länder" liege. Ein Beitrag im Deutschlandfunk Nova sprach im Dezember 2023 davon, dass die Generierung eines einziges Bildes ungefähr so viel Energie verbrauche wie ein Handy komplett aufzuladen; dieser Bericht basiert auf der Studie "Power Hungry Processing" (Lucioni et al. 2023, https://arxiv.org/abs/2311.16863). / Hinweis: Bei externen Links kann es sein, dass Ihre IP-Adresse beim Anklicken in Länder außerhalb der EU (z.B. USA) übertragen wird. Klicken Sie nur auf externe Links, wenn Sie so einer Übertragung zustimmen. Zurück zum Artikel

2 Microsofts FAQ zu Copilot in Word / Hinweis: Bei externen Links kann es sein, dass Ihre IP-Adresse beim Anklicken in Länder außerhalb der EU (z.B. USA) übertragen wird. Klicken Sie nur auf externe Links, wenn Sie so einer Übertragung zustimmen. Zurück zum Artikel

3 In Abgrenzung zur traditionellen Kybernetik sprach von Foerster von einer Kybernetik 2. Ordnung, um den Beobachter*in-Standpunkt zu berücksichtigen - und auch die Beobachtung dieser Beobachter*in (darum 2. Ordnung). Die Kybernetik 2. Ordnung war eine radikalkonstruktivistische Erkenntnistheorie. Sie befasste sich mit der Frage, wie Menschen oder abstrakter: kognitive Systeme zu Erkenntnissen über ihre beobachtete Umwelt gelangen. Heinz von Foerster sprach vom "Eigenwert" des kognitiven Systems, der (ähnlich der nicht-trivialen Maschine) durch für äußere Beobachter*innen nicht erkennbare rekursive Operationen im Innern des Systems erzeugt wurde. Der Soziologe Niklas Luhmann bezog sich in seiner Theorie sozialer Systeme u.a. sehr auf von Foerster. / Zurück zum Artikel

4 Interessant ist dann, wie Nutzer*innen eines Programms mit unerwarteten Reaktionen des Programms oder mit Störungen umgehen, wobei Kommunikation eine wichtige Rolle spielt. Ich habe das exemplarisch in meiner Dissertation untersucht ("'Offensichtlich weigert sich Facebook, mir darauf eine Antwort zu geben': Strukturelle Analysen und sinnfunktionale Interpretationen zu Unsicherheit und Ordnung der Computernutzung", Universität Rostock, als Buch erschienen 2016). Die darin genutzte Beobachtungsmethode habe ich später in meinem Buch "Nutzerverhalten verstehen - Softwarenutzen optimieren. Kommunikationsanalyse bei der Softwareentwicklung" (2020) nochmal in knapperer Form dargestellt. In dem Zusammenhang ist auch dieser Artikel bei Über/Strom relevant. / Zurück zum Artikel

5 Ein künstliches Neuron addiert mehrere Eingangswerte (etwa a, b, c) und wendet auf deren Summe x = a + b + c eine Aktivierungsfunktion y = f(x) an. Bei einem künstlichen neuronalen Netz sind mehrere (praktisch extrem viele) solcher Neuronen in Schichten nacheinander geschaltet. Das Ergebnis y eines Neurons wird gewichtet an das nächste Neuron des Netzwerks weitergegeben, bis es zur Ausgabeschicht kommt. Dort wird es mit einer Zielvorgabe abgeglichen und die Abweichung der Ausgabe vom Ziel ermittelt. Der ermittelte Fehler wird über das Netzwerk zurück übermittelt (Backpropagation), um die Gewichtungen zwischen den Neuronen zu verbessern. Damit wird mit jedem weiteren Trainingsdurchgang das Ergebnis schrittweise verbessert, sodass das Netzwerk am Ende in der Lage ist, bestimmte Merkmale korrekt zu identifizieren. Die Einzeloperationen in einem Neuron oder zwischen zwei Neuronen sind nicht schwer zu verstehen. Doch sobald es um ein echtes Netzwerk in der Praxis geht, scheitert jeder Versuch des manuellen Nachvollziehens an der Anzahl der Neuronen und der beteiligten Schichten. / Zurück zum Artikel

6 Eine auch für interessierte Laien gut verständliche Einführung in die Modellierung künstlicher neuronaler Netze bietet Tariq Rashid in seinem Buch "Neuronale Netze selbst programmieren" (2017). Ein aktueller Überblick über generative Modellierung findet sich in David Fosters Buch "Generative Deep Learning. Teaching Machines to Paint, Write, Compose, and Play" (2. Auflage 2023). Speziell zu ChatGPT ist auch Stephen Wolframs Buch "Das Geheimnis hinter ChatGPT" (2023) lesenswert. / Zurück zum Artikel

7 Im Alltag haben wir es oft mit einem Verbund mehrerer komplexer Systeme zu tun, die auf eine von außen oft nicht erkennbare Weise miteinander funktionieren. Bei der Nutzung eines KI-Systems wie Copilot ist ja nicht nur GPT oder DALL-E beteiligt. Auch das eigene Endgerät, der Webbrowser oder die App, sowie die Internetverbindung können zum Erfolg oder Misserfolg so einer Nutzungssituation beitragen. Erzeugt DALL-E mir ein Bild jetzt nicht, weil mein Prompt nicht verständlich ist? Oder sind einfach die Server überlastet? Oder hat es meine Eingabe gar nicht erhalten, weil mein WLAN wieder abgebrochen ist? Das WLAN, also die drahtlose Internetverbindung, ist übrigens eines meiner liebsten Beispiele für nicht-triviale Technik, insbesondere in Mietshäusern mit vielen Parteien, die alle ihre eigenen, oft nicht gut eingerichteten WLAN-Router nutzen. Als 'naive*r' Nutzer*in glaubt man gerne den Versprechen der Werbung: anschließen und fertig. Stellt man dann fest, dass immerzu "das Internet weg ist", geht die Fehlersuche los und man merkt irgendwann, dass die scheinbar triviale Maschine (anschalten -> funktioniert) doch wesentlich komplexer ist als gedacht, weil neben dem eigenen WLAN-Router oder der Leitung des Telekommunikationsanbieters noch andere Faktoren für die Stabiltiät der eigenen Verbindung verantwortlich sind (zum Beispiel andere WLAN-Netze in den Nachbarwohnungen, die Bausubstanz, u.a.). Das Zusammenspiel all dieser Faktoren wirkt als kaum noch verstehbare nicht-triviale Maschine, und in unserem "Trivialisierungsbestreben" (von Foerster 1993, S. 252) rufen wir dann eine*n Servicetechniker*in. In meinem Buch "Die Unschuld der Maschinen. Technikvertrauen in einer smarten Welt" (2019, S. 114-120) gehe ich ausführlicher auf dieses Beispiel ein. / Zurück zum Artikel

8 DALL-E kann zahlreiche Stile imitieren (getestet habe ich Rubens, Dürer, van Gogh, da Vinci, Magritte, Hopper und Picasso), auch Angaben wie Impressionismus, Expressionismus, Realismus usw. sind möglich. Werden im Prompt jedoch untrainierte Stile angefordert, oder erkennt das System den Wunsch nach einem bestimmten Stil in der Eingabe nicht, erzeugt das System einfach Bilder in seinem eigenen undefinierbaren Stil, der irgendwo zwischen Kinderbuch, Comic und Fotografie changiert. / Zurück zum Artikel

9 Der Rückgriff auf Walter Benjamins Aura-Begriff muss nicht zum bloßen Beklagen ihres vermeintlichen Wegfalls führen. Im Buch "Im Blick der Bilder. Digitalität, Fotografie & Bildkultur" (2023, erschienen in unserer Über/Strom-Buchreihe) betont der Fotograf, Künstler und Hochschuldozent Marcus Kaiser, dass "[…] gerade das Besondere das Erhabene, das Auratische [der] Zündfunken [ist], der die Simulationsmechanismen unserer Weltgesellschaft immer wieder in Gang bringt. Denn wie Walter Benjamin sehe ich in der Reproduktion, der Kopie oder der Nachahmung den Versuch, das Besondere aus seinem räumlich-zeitlichen Gefüge zu lösen und in anderen Zusammenhängen unabhängig vom ursprünglichen Ort und der Zeit 'auszustellen'" (S. 112). Kaiser weist an der Stelle darauf hin, dass man differenzieren müsse. Insbesondere der Gedanke, generative KI-Systeme nur als Blackbox zu begreifen, trage nicht: "Dieser Ansatz würde nur dazu beitragen, einen neuen Mythos zu schaffen, der wiederum politisch und ideologisch instrumentalisiert werden kann. Hier finde ich es zielführender, die Maschinen grundlegend zu verstehen, zu beherrschen und erklärbar zu machen, auch wenn immer wieder behauptet wird, das sei schwierig und bei selbstlernenden neuronalen Netzwerken gar unmöglich" (ebd). / Zurück zum Artikel

10 Felix Zimmermann hat, basierend auf phänomenologischen Konzepten, in seinem Buch "Virtuelle Wirklichkeiten. Atmosphärisches Vergangenheitserleben im Digitalen Spiel" (2023, Büchner-Verlag) das Produzieren von Vergangenheitsatmosphären im Computerspiel untersucht. Das Buch kann kostenfrei heruntergeladen werden. / Hinweis: Bei externen Links kann es sein, dass Ihre IP-Adresse beim Anklicken in Länder außerhalb der EU (z.B. USA) übertragen wird. Klicken Sie nur auf externe Links, wenn Sie so einer Übertragung zustimmen. Zurück zum Artikel

11 Die Unterscheidung von Situation und Konstellation mache ich in Anlehnung an die Neophänomenologie (Herrmann Schmitz). Eine Situation erfassen wir schlagartig und ganzheitlich; sie ist "binnendiffus", d.h. ihre Elemente sind nicht alle vereinzelbar. Konstellationen sind dagegen eher durch einzeln identifizierbare Elemente dominiert (Schmitz, Hermann: "Der Leib", 2011, S. 118, de Gruyter). / Zurück zum Artikel

 

Feedback zum Artikel?

Sie möchten den Artikel kommentieren? Sehr gerne! Aus Datenschutzgründen gibt es jedoch keine Kommentarfunktion. Sie können uns ganz klassisch einen Leser:innen-Brief an redaktion (at) ueberstrom (punkt) net schicken. Nur wenn Sie in Ihrer Mail explizit einer Veröffentlichung Ihrer Mail zustimmen, kann diese als Kommentar unter diesem Artikel veröffentlicht werden. Kürzungen und Nichtveröffentlichung sind uns vorbehalten. Da auch beim Senden von E-Mails Daten übertragen und verarbeitet werden, lesen Sie bitte vor dem Senden einer E-Mail an uns die Datenschutzerklärung, insbesondere den Unterabschnitt "E-Mail-Versand und -Hosting".