1. Startseite
  2. Kassel

Wie sich eine KI den Kasseler Bergpark vorstellt

Erstellt: Aktualisiert:

Kommentare

Der erste Anlauf (Bild 1): Bei Eingabe bestimmter Wörter, die den Bergpark beschreiben (wie Teich, Tempelchen, Bäume), erstellt die Künstliche Intelligenz dieses Bild als eine von zahllosen Variationen.
Der erste Anlauf (Bild 1): Bei Eingabe bestimmter Wörter, die den Bergpark beschreiben (wie Teich, Tempelchen, Bäume), erstellt die Künstliche Intelligenz dieses Bild als eine von zahllosen Variationen. © Privat

Lässt sich ein Bild von Kassel mit Hilfe Künstlicher Intelligenz entwerfen? Wir haben es versucht.

Kassel – Kürzlich haben wir ein Interview mit der Künstlichen Intelligenz (KI) ChatGPT geführt und ihr Fragen zum Landkreis Kassel gestellt. Viele Antworten waren korrekt, andere hingegen phantasievolle Erfindungen; halluzinieren nennt man das in der KI-Forschung. Aber KI kann weit mehr, als anregende Gespräche zu führen und – mehr oder weniger zuverlässige – Ratschläge erteilen. Seit etwa einem Jahr gibt es Systeme, die Bilder allein aufgrund einer Textbeschreibung erzeugen.

Der Fachbegriff für diese Beschreibung heißt „Prompt“, das Verfahren „Text-to-image“. Ein solcher Prompt kann ein paar Wörter umfassen oder so lang sein wie ein Aufsatz. Testen wir sie mit einem vertrauten Motiv, dem Bergpark Wilhelmshöhe, wie er sich vom Schloss aus Richtung Herkules darbietet. Die Beschreibung umfasst annähernd 100 Wörter. Die besten Ergebnisse liefern englische Eingaben, ChatGPT kann bei Übersetzung und Prompt-Formulierung helfen. Doch die Resultate sind enttäuschend: Zwar entstehen viele recht schöne Parkszenen mit Wiese, Bäumen, Teich und Tempelchen, doch etwa von dem gleichfalls vorgegebenen Berg im Hintergrund mit Riesenschloss und Herkules ist nichts zu sehen (siehe Bild 1).

Viele weitere Versuche führen zu ähnlichen Ergebnissen. Irgendwann kommt tatsächlich ein Berg mit einer großen Statue darauf zum Vorschein, doch im Vordergrund stört nun ein breiter, schlammiger Weg den gepflegten Park (Bild 2). Nach Welterbe-Bergpark sieht das alles nicht im Entferntesten aus. Geben wir stattdessen als Prompt die zehn Wörter ein: „Der Times Square in New York in einer regnerischen Nacht“. Dass es dort Leuchtreklamen, Hochhäuser und Autos gibt, muss gar nicht erwähnt werden, das weiß die KI. Ebenso, dass bei Regen die nasse Straße das Licht reflektiert. Warum kann sie das bei New York oder beim Eiffelturm, aber nicht beim Bergpark?

Nach weiteren Versuchen (Bild 2): Immerhin ist hier schon ein Berg mit Monumentalstatue zu sehen.
Nach weiteren Versuchen (Bild 2): Immerhin ist hier schon ein Berg mit Monumentalstatue zu sehen. © Privat

Eigentlich weiß die KI gar nichts. Sie hat jedoch ein gewaltiges Gedächtnis, denn sie wurde mit Milliarden Bildern trainiert, die überall im Web zu finden sind. Bilder allein reichen ihr jedoch nicht aus, denn auch, wenn sie zahllose Fotos von Autos oder Bäumen verarbeitet hat, weiß sie nicht, dass diese Objekte Autos oder Bäume sind. Zum Training gehören also Paare aus Bildern und Inhaltsbeschreibungen.

Ist die Trainingsphase beendet und hat das neuronale Netz, das ein wenig dem menschlichen Gehirn nachgebildet ist, genug gelernt, kann man es benutzen und neue Bilder generieren lassen.

Die Wahrscheinlichkeit, dass zu den Trainingsbildern viele gehörten, die den Times Square zeigen, ist wesentlich höher als die, dass auch welche von der Wilhelmshöhe darunter waren. Aber selbst KI-Bilder des New Yorker Platzes sind keine exakten Fotos. Lassen Sie ein neues Bild entstehen, so werden Sie andere Leuchtreklamen, Hochhäuser, Autos oder Straßenbeläge sehen. Wollen Sie Brad Pitt in einer Rolle als Abraham Lincoln darstellen, werden Sie viele gute Ergebnisse angeboten bekommen. Bei Kassels Oberbürgermeister Christian Geselle wird das nicht funktionieren, da Fotos von ihm kaum zum Trainingsmaterial gehört haben werden.

Ein bisschen Herkules (Bild 3): So stellt sich die Künstliche Intelligenz den Herkules vor.
Ein bisschen Herkules (Bild 3): So stellt sich die Künstliche Intelligenz den Herkules vor. © Privat

Auch unseren Herkules kennt die KI nicht. Von seiner exakten Beschreibung mit 66 Wörtern wurden Statue, grünes Kupfer, Bart und Locken sowie Muskeln übernommen – aber es gibt keinen auf der Keule ruhenden Arm und keinen hinter den Rücken gehaltenen. Um keine Missverständnisse entstehen zu lassen: Diese Statue existiert nirgendwo auf der Welt (Bild 3). Sie wurde auch nicht wie bei einer Montage aus anderen Figuren zusammengesetzt. Die KI zerpflückt ihre Trainingsbilder in winzige digitale Schnipsel, beginnt mit einem bedeutungslosen Rauschen und fügt diese Partikel, gesteuert durch Prompt, Wahrscheinlichkeit und gelernte Strukturen, Schritt für Schritt zu etwas jedes mal Neuem zusammen. So lassen sich aus ein und demselben Prompt Tausende unterschiedlicher Bilder ableiten.

Wenn es mit dem KI-Bild des Bergparks auf diese Weise nicht klappt, können Sie der KI auf die Sprünge helfen, indem Sie ein Foto der gewünschten Szene vorgeben, festlegen, wie ähnlich das Resultat der Vorlage werden soll, und so die Prompt-Umsetzung in eine bestimmte Richtung lenken. Das Bild der großen Wiese vor dem Schloss ist auf diesem Weg entstanden; hinten lugt etwas Herkules-ähnliches über die Bäume, allerdings hat die KI ein weiteres Denkmal in den Park gemogelt und Fontänenteich sowie Jussow-Tempelchen völlig ignoriert (Bild 4).

Ergebnis nach Vorgabe eines Park
Ergebnis nach Vorgabe eines Park-Fotos (Bild 4): Problem ist hier das zweite Denkmal.  © Privat

Zwar kann KI vieles – noch – nicht. Zum Beispiel zählen. Einerseits generiert sie die phantastischsten Szenen mit allen Details, andererseits entstehen immer wieder überzählige Finger oder Gliedmaßen; Fehler, die man nicht einmal auf einer Kinderzeichnung findet. Doch nicht nur Fotoähnliches kommt per KI zustande; der knappe Prompt „Madonna mit Kind vor einer Landschaft, im Stil Raffaels gemalt“, führt in Sekunden zu einem überzeugenden Ergebnis (falls die KI nicht die US-Sängerin anstelle Marias platziert). Unnötig zu erwähnen, dass es auch für dieses „Gemälde“ keine reale Entsprechung gibt.

Die Zukunftsaussichten, die sich daraus ergeben, sind gleichermaßen faszinierend wie beängstigend. Software, die wesentlich einfacher zu bedienen und zu steuern ist als etwa der bisherige Marktführer Midjourney, ist von der Firma Adobe bereits angekündigt und demnächst verfügbar. ChatGTP wird Texter, Übersetzer und Redakteure arbeitslos machen, bilderzeugende KI Illustratoren, Grafiker und Fotografen weitgehend ersetzen.

Die Qualität der Bilder hat sich bereits in dem einen Jahr, seit das Verfahren zugänglich ist, um Größenordnungen verbessert. Gefakte KI-Bilder werden sich von authentischen Fotos nicht mehr unterscheiden lassen. Gerade gewann ein solches Bild einen internationalen Fotowettbewerb mit 200 000 Einsendungen – es war nicht als KI-generiert erkannt worden. Und schließlich wird sich dank dieser Bilder – gerade in der documenta-Stadt Kassel – die spannende Frage völlig neu stellen, was denn Kunst überhaupt ist. Im Museum Fridericianum ebenso wie auf der Wilhelmshöhe.

Weitere von der KI erstellte Bilder

Mit Kassel hatte die KI so ihre Probleme, andere Ergebnisse waren besser:

Der Times Square in New York: Hier liefert die Künstliche Intelligenz schon bessere Ergebnisse.
Der Times Square in New York: Hier liefert die Künstliche Intelligenz schon bessere Ergebnisse. © Privat
Vincent von Gogh - von KI erstelltes Bild
Vincent von Gogh - von KI erstelltes Bild © Privat
Eine von der KI erstellte Berglandschaft
Eine von der KI erstellte Berglandschaft. © Privat
Ein Ufo über Paris - so wie die KI es sieht
Ein Ufo über Paris - so wie die KI es sieht. © Privat

KI hat Probleme mit Händen und Finger

Was bei KI generierten Bildern oft auffällt: Die Tools haben Probleme mit Händen. Oft stimmt die Anzahl der Finger nicht - oder sie sitzen falsch an der Mittelhand. Anhand von Händen und Fingern lässt sich oft ablesen, dass ein Foto künstlich erzeugt worden ist.

Was bei KI generierten Bildern oft auffällt: Die Tools haben Probleme mit Händen. Oft stimmt die Anzahl der Finger nicht - oder sie sitzen falsch an der Mittelhand
Ein Beispiel, dass die KI Probleme mit Händen hat. © Privat

Auch Details wie Ohren von abgebildeten Menschen sind oftmals deformiert, Schuhe oder Füße werden teils zu groß dargestellt. Bei mehreren Personen lohnt es auch, auf die Mimik zu achten: Vor Kurzem hatte der stellvertretende AfD-Fraktionsvorsitzende Norbert Kleinwächter auf Instagram ein von einer KI erzeugtes Bild gepostet. Es zeigt aggressiv wirkende Männer mit dunklen Augen und Haaren. Der Satz unter dem Bild: „Nein zu noch mehr Flüchtlingen“. Was beim Betrachten auffällt: Alle Männer auf dem Bild haben den Mund weit geöffnet. Ein Mann im Vordergrund hat zudem einen Finger zu viel. (Hans D. Baumann)

Auch interessant

Kommentare