Artikel
Es gibt Kunst in der KI, auch wenn sie künstlich ist

Ich habe mich schon immer für Kunst interessiert, aber ich bin nie ein richtiger Künstler geworden. Mein Interesse daran ist jedoch geblieben, und obwohl ich nicht genug Zeit hatte, meine Fähigkeiten zu beherrschen, habe ich mich gerne von Zeit zu Zeit in etwas Kreativem versucht. In den letzten zwei Jahren ist es mit der Einführung fortschrittlicher KI-Tools einfacher geworden, visuell ansprechende Werke zu schaffen. Wir haben jetzt Zugang zu Tools, die uns helfen, unsere Ideen durch visuelle Darstellung auszudrücken, ohne dass wir viel Zeit in die Beherrschung dieser Fähigkeiten investieren müssen. Natürlich war ich neugierig auf diese Tools und darauf, was man mit ihnen schaffen kann. Aber in letzter Zeit habe ich mich gefragt, wie KI eigentlich Kunst schafft und wie die Szene aussah, bevor KI die kreative Arena betrat. In diesem Artikel möchte ich verschiedene KI-Modelle für die Schaffung von Kunst erforschen, die Unterschiede zwischen generativer Kunst und KI-Kunst diskutieren und andere Möglichkeiten erkunden, künstlerisch tätig zu sein.
KI-Modelle für die Bilderzeugung
Ich glaube, das erste Mal, dass ich von KI-Tools generierte Kunst sah, war vor etwa einem Jahr, als einige meiner Kollegen mit einer Text-zu-Bild-Engine namens Midjourney experimentierten. Die Ergebnisse waren natürlich ziemlich beeindruckend, nicht ohne dass wir einige Zeit brauchten, um zu lernen, wie man das Tool richtig einsetzt. Aber zu dieser Zeit gab es eine offensichtliche Veränderung in der Art und Weise, wie wir Kunst machen und wie wir sie wahrnehmen. Einige Monate später erschien DALL-E auf der Bildfläche, und da ich ChatGPT Plus hatte, konnte ich es sofort ausprobieren. Ein weiteres beliebtes Tool ist Stable Diffusion. Obwohl ich es nie ausprobieren konnte, werden diese drei oft miteinander verglichen, so dass es unmöglich ist, über eines zu sprechen, ohne die Existenz der anderen zu erwähnen, da sie im Wesentlichen dasselbe tun. Irgendwann musste ich mich fragen, was unter der Haube dieser Tools vor sich geht. Meine Neugierde wurde geweckt, als ich die Ähnlichkeiten in den erstellten Bildern bemerkte, und mit der Zeit wurde es einfach, zu erkennen, ob ein Bild von einer KI erstellt wurde.
Zunächst einmal gibt es mehrere KI-Modelle für die Bilderzeugung, aber es gibt vier Hauptmodelle: Diffusionsmodelle, Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs) und Flow-basierte Modelle.
Ich habe bereits erwähnt, dass diese drei Text-zu-Bild-Engines im Wesentlichen das Gleiche tun, weil sie auf dem Diffusionsmodell basieren. Da diese Tools ziemlich populär geworden sind, kann man mit Fug und Recht behaupten, dass der Großteil der von KI generierten Kunst mit einem Diffusionsmodell erstellt wird.
Was ist also das Hauptprinzip hinter diesen Modellen? Bei meinen Nachforschungen stieß ich auf eine riesige Menge an Erklärungen mit viel Mathematik und Formeln, die extrem kompliziert klingen (was sie auch sind). Ich möchte jedoch eine sehr kurze und einfache Beschreibung des wichtigsten Funktionsprinzips jedes dieser Modelle geben.
Diffusionsmodelle fügen nach und nach Gaußsches Rauschen hinzu (in digitalen Bildern sind das zufällige helle oder dunkle Flecken, die das Bild körnig aussehen lassen. Dieses Rauschen kann von schlechten Lichtverhältnissen oder Kamerafehlern herrühren und verleiht den Bildern eine unscharfe Qualität) einem Eingangsbild in einer Reihe von Schritten nacheinander hinzu. Dieser Prozess wird als Vorwärtsdiffusion bezeichnet. Ein neuronales Netzwerk wird dann darauf trainiert, die ursprünglichen Daten wiederherzustellen, indem der Rauschprozess umgekehrt wird. Da es in der Lage ist, den umgekehrten Prozess zu modellieren, kann es neue Daten erzeugen. Dies wird als umgekehrter Diffusionsprozess oder, allgemeiner, als Sampling-Prozess eines generativen Modells bezeichnet.
Generative Adversarial Networks lassen sich auf sehr einfache Weise erklären. Wenn Sie neue Daten erzeugen wollen, müssen Sie zwei Modelle erstellen. Das erste muss darauf trainiert werden, gefälschte Daten zu erzeugen, und das zweite muss darauf trainiert werden, echte von gefälschten Daten zu unterscheiden. Und dann lassen Sie sie einfach gegeneinander antreten. Klingt einfach, oder? Aber ich denke, einige Details wären hier hilfreich. Sowohl Diffusionsmodelle als auch GAN erzeugen Bilder aus Rauschen, aber GAN hat ein anderes Grundprinzip. Das erste Modell ist ein neuronales Netzwerk, das Generator genannt wird und dessen Aufgabe es ist, gefälschte Daten nur mit Rauschen als Eingabe zu erzeugen. Das zweite Modell wird Diskriminator genannt und lernt zu erkennen, ob ein Bild gefälscht ist oder nicht, indem es als Eingabe sowohl die echten Bilder als auch die vom Generator erzeugten Fälschungen erhält. Der Zauber beginnt, wenn Sie die beiden Modelle gegeneinander antreten lassen und sie gleichzeitig trainieren. Der Generator wird immer besser darin, Bilder zu erzeugen, während er versucht, den Diskriminator zu täuschen. Der Diskriminator wird immer besser darin, zwischen gefälschten und echten Bildern zu unterscheiden, weil er sich nicht täuschen lassen will. Das Ergebnis sind unglaublich realistische gefälschte Daten des Diskriminators.
Variationale Autoencoder sind generative Modelle, die die Verteilung von Daten lernen und so neue Datenpunkte erzeugen können. Im Wesentlichen: Sie lernen, Daten in eine kompakte Darstellung zu komprimieren (kodieren) und dann die Originaldaten aus dieser kompakten Darstellung so genau wie möglich zu rekonstruieren (dekodieren).
Flussbasierte generative Modelle arbeiten nach dem Prinzip der Transformation von Daten durch das Erlernen invertierbarer Mappings (Sequenzen invertierbarer Transformationen) zwischen der Datenverteilung und einer bekannten Verteilung (in der Regel eine Gauß-Verteilung). Das Hauptmerkmal von flussbasierten Modellen ist, dass sie eine exakte Likelihood-Berechnung und Invertierbarkeit ermöglichen. Dadurch eignen sie sich hervorragend für bestimmte Arten von generativen Aufgaben, wie z.B. die High-Fidelity-Bildsynthese oder die Modellierung komplexer Datenverteilungen.
Ein kleines Experiment
Wie bereits erwähnt, stützen sich Tools wie DALL-E, Midjourney und Stable Diffusion auf Diffusionsmodelle, aber das war mir nicht klar, als ich anfing, das Feld zu erkunden. Nachdem ich mich mit den verschiedenen generativen Modellen vertraut gemacht hatte, wandte ich mich an DALL-E und bat es, einige Bilder anhand bestimmter Modelle zu generieren. Zu meiner Überraschung erhielt ich einige Ergebnisse, obwohl das Programm nicht wirklich in der Lage war, das zu tun, was ich verlangt hatte. Komischerweise antwortete DALL-E, als ich kürzlich versuchte, eine der Aufforderungen zu verwenden, die ich zuvor benutzt hatte:
I can only create images with the tools I have access to, which currently include generating images based on your descriptions using a model similar to DALL-E, rather than specifying the type of AI model like a Variational Autoencoder (VAE). If you'd like another forest image or have a different request, I'm here to help!
Im Gegensatz zu früher hat es nicht versucht, etwas zu generieren, das irgendwie zur Beschreibung passt, also kann ich nur annehmen, dass einige Einschränkungen eingeführt wurden. Hier sind einige Beispiele von Bildern, die ich Anfang des Jahres mit den von mir verwendeten Eingabeaufforderungen erhalten habe:
Generative Kunst vs. KI-Kunst
Nachdem wir nun verschiedene generative Modelle durchgesprochen und hoffentlich eine grundlegende Vorstellung davon bekommen haben, wie diese modernen Tools funktionieren, ist es an der Zeit, ein paar Dinge zu klären. Wir haben über KI-Modelle zur Bilderzeugung gesprochen und sie als generative Modelle bezeichnet, aber bedeutet das, dass wir das Ergebnis, das sie erzeugen, als generative Kunst bezeichnen können? Zunächst einmal gibt es den Begriff "generative Kunst" schon seit den 1960er Jahren, als Programmierer und Künstler begannen, computergesteuerte Roboter zur Erstellung von Gemälden einzusetzen. Seitdem hat es sich eingebürgert, diese Kunst als algorithmische Kunst (computergenerierte Kunst) zu bezeichnen. Im Wesentlichen wird diese Art von Kunst anhand einer Reihe von vordefinierten Regeln oder Algorithmen erstellt. Wenn wir über Algorithmen sprechen, sind sie oft mathematischer oder logischer Natur. Wir verwenden oft Muster, die wir um uns herum sehen, und versuchen, sie mit einigen benutzerdefinierten Parametern wie Farbe, Schemata, geometrischen Formen usw. zu replizieren, aber das Endergebnis wird immer durch den Algorithmus selbst bestimmt.
Auf der anderen Seite des Mondes steht die KI-generierte Kunst, die auf eine andere Art und Weise mit maschinellen Lerntechniken wie neuronalen Netzwerken erstellt wird. Diese Kunst kann sehr viel aufwändiger zu produzieren sein, da Sie ein neuronales Netzwerk auf einem großen Datensatz von Bildern trainieren müssen und erst dann können Sie das trainierte Netzwerk verwenden, um ein Kunstwerk zu erstellen. Obwohl der Künstler eine gewisse Kontrolle über die Parameter des neuronalen Netzwerks und die zum Trainieren verwendeten Daten hat, wird das Endergebnis nie dasselbe sein und vom Netzwerk selbst bestimmt werden.
Was können wir außer KI noch tun?
Natürlich gibt es unzählige Möglichkeiten, Kunst zu machen und kreativ zu sein, aber es ist immer schön, Dinge zu erwähnen, in der Hoffnung, die Kreativität anderer zu wecken.
Uns stehen so viele verschiedene Werkzeuge zur Verfügung, von Motoren, Programmen, Algorithmen, physischen Maschinen, Druckern, Sensoren und einer Menge anderer technischer Hilfsmittel, dass die Anzahl der Möglichkeiten und Fähigkeiten überwältigend wird.
Manchmal ist es wirklich schön, einen Schritt zurück zu den einfacheren Dingen zu machen und den Horizont zu erkunden. Die Kombination von Kunst mit anderen Fächern wie Mathematik oder Programmierung kann zu erstaunlichen Ergebnissen führen. Die Verwendung mathematischer Formeln zur Erstellung komplexer Bilder (fraktale Kunst), die Selbstähnlichkeit in verschiedenen Maßstäben mit unendlich detaillierten Mustern aus einfachen Gleichungen zeigen, hat mich schon immer verblüfft. Das Gleiche gilt für die Schaffung von algorithmischen Skulpturen, Formen, die unmöglich von Menschenhand allein erschaffen werden können, sondern mit Hilfe von Rechenprozessen entworfen und mit Hilfe der 3D-Drucktechnologie hergestellt werden können.
Es gibt noch ein weiteres Beispiel, das mir sehr gut gefällt, und das ist die Beschädigung von Bildern oder Glitching. Es gibt viele Möglichkeiten, dies zu tun, und manche sind schlauer als andere, aber am einfachsten ist es, den Quellcode eines Bildes zu ändern und mit sehr wenig Manipulation interessante Ergebnisse zu erzielen. Alles, was Sie dazu brauchen, ist Notepad++ oder ein anderes Textverarbeitungsprogramm und ein Bild, das Sie verändern möchten. Wenn Sie ein Bild mit einem Texteditor öffnen, sehen Sie im Wesentlichen die binären Rohdaten der Bilddatei, die als Text dargestellt werden. Diese Binärdaten enthalten alle Informationen, die für die Anzeige des Bildes erforderlich sind, z.B. Farbwerte für jedes Pixel, Bildabmessungen, Komprimierungstyp und möglicherweise Metadaten über das Bild. Das Tolle daran ist, dass Sie das nicht verstehen müssen. Sie brauchen nur ein paar Codezeilen herauszusuchen, sie zu kopieren und sie anstelle anderer Zeilen irgendwo in der Datei einzufügen. Schon ein paar Wiederholungen reichen aus, um das ursprüngliche Bild bis zur Unkenntlichkeit zu verändern.
Hier sehen Sie ein Beispiel für ein beschädigtes Bild:
Fazit
Es ist jetzt viel einfacher, kreativ zu sein und Kunst zu schaffen, aber ich denke immer noch, dass die KI in diesem Stadium nur ein Werkzeug ist, mit dem man Dinge erschaffen kann, und nicht ein echter Künstler. Es gibt definitiv Kunst in dem, was von all diesen KI-Modellen erzeugt wird, aber vor allem deshalb, weil sie sich auf Daten stützt, die von Menschen erzeugt wurden, und oft Input von uns erfordert, was bedeutet, dass wir uns ein wenig anstrengen müssen, um Ideen zu entwickeln und unsere Kreativität zu fördern. Die meiste Arbeit liegt für uns immer noch in der Entwicklung der Idee und nicht in deren Umsetzung. Allerdings gibt es viele Meinungen und das macht es interessant.
Dieser Artikel ist Teil von XPRT.#16. Sie können das Magazin hier herunterladen

Tauchen Sie tiefer in die Welt der Innovation ein - besuchen Sieunsere Bibliothek'Your Essential Guides to Innovation and Expertise' und greifen Sie auf eine Sammlung von Magazinen und eBooks zu, die Ihr Verständnis von Spitzentechnologie verbessern und Sie zu Ihrer nächsten großen Idee inspirieren werden.
Contact



