Blog

Wie wir mit Hilfe von Künstlicher Intelligenz erstaunliche Musik mit Video erstellt haben

Dennis Vink

Aktualisiert Januar 23, 2026

11 Minuten

Verpixelte Dichter: Wie generative KI unsere Musikproduktion beflügelt

Die Reise der Pixelated Poets ist ein Beweis für die unendlichen Möglichkeiten, die KI in unser Leben bringt. Es ist eine Entdeckungsreise ins Unbekannte, eine Chronik der Innovation und vor allem eine Feier dessen, wie Kreativität und Technologie zusammen eine wunderschöne Symphonie komponieren können. Lassen Sie uns also eintauchen und die hohen Töne dieser aufregenden musikalischen Saga anschlagen.

Im Zeitalter des rasanten technologischen Fortschritts ist die Künstliche Intelligenz (KI) nicht mehr auf Datenanalyse oder automatisierte Systeme beschränkt. Sie breitet ihre Flügel über verschiedene Bereiche aus, revolutioniert Branchen und schafft unerwartete Wunder. Eines dieser Wunder ist der Einfluss, den die KI auf die kreative Welt, insbesondere die Musik, hat. Willkommen auf der unglaublichen Reise der "Pixelated Poets", einer skurrilen KI-gesteuerten Folk-Band, in der Kreativität auf künstliche Intelligenz trifft.

Dies sind keine gewöhnlichen Musiker. Es gibt keinen Leadsänger, der leidenschaftlich in die Tasten haut, keinen Gitarristen, der herzzerreißende Melodien spielt, und keinen Schlagzeuger, der das Tempo vorgibt. Stattdessen sind unsere Bandmitglieder ein komplexes Netzwerk von Algorithmen, die im Einklang arbeiten, um Musik zu komponieren, die Emotionen hervorruft, Geschichten erzählt und Ihren Fuß zum Wippen bringt.

Alles, was Sie hier entdecken werden, vom einprägsamen Bandnamen bis hin zu den fesselnden Melodien, wurde von AI entwickelt. Dazu gehören die Songbeschreibungen, die den Geist jedes Titels einfangen, die Texte, die komplizierte Erzählungen verweben, die Melodie, die die Luft mit musikalischen Nuancen malt, und die Rhythmusgruppe, bestehend aus Bass, Backing Tracks und Schlagzeug, die den Groove vorgibt.

Wir haben KI auch für die Produktion unserer eigenen Musikvideos eingesetzt und damit eine reichhaltige visuelle Erzählung geschaffen, die perfekt mit unserer Musik harmoniert. Jedes Bild dieser Videos ist ein Beweis für die Leistungsfähigkeit der KI bei der Erstellung überzeugender visueller Kunst.

In diesem Blogbeitrag tauchen wir tief in den faszinierenden Prozess hinter Pixelated Poets ein. Wie komponiert die KI Texte, die mit menschlichen Erfahrungen übereinstimmen? Wie schafft sie eine Melodie, die einen Song unvergesslich macht? Und vor allem: Wie schafft es die KI, über Einsen und Nullen hinaus Kunst zu schaffen, die die Herzen berührt? Begleiten Sie uns auf dieses magische musikalische Abenteuer und finden Sie die Antworten.

Der Song ist auf Spotify verfügbar unter: Zum Anhören klicken

Das Musikvideo zu dem von AI produzierten Song können Sie sich hier ansehen:

Gepixelte Träume

Hinter der Musik: Wie KI Songtexte schreibt

Wenn Sie sich einen Song von Pixelated Poets anhören, fragen Sie sich vielleicht: "Wie kann eine KI solch emotional ansprechende Texte schreiben?" Die Antwort liegt in der komplexen Maschinerie der Large Language Models (LLMs). Diese Modelle sind leistungsstarke Werkzeuge, die maschinelles Lernen nutzen, um menschenähnliche Texte zu erzeugen.

Große Sprachmodelle wurden trainiert, indem enorme Mengen an Textdaten aus dem Internet aufgenommen wurden, darunter Bücher, Artikel und, was für unsere Zwecke wichtig ist, Songtexte. Dadurch kann das Modell die Strukturen, Muster und Nuancen der Sprache lernen.

Durch diesen Prozess lernt die KI Grammatik, Reime, gebräuchliche Phrasen und sogar thematische Elemente. Es ist jedoch wichtig klarzustellen, dass die KI den Text nicht so "versteht", wie es Menschen tun. Sie identifiziert statistische Muster und nutzt diese, um vorherzusagen, was als nächstes kommt.

Wir brauchen kein großes Sprachmodell zu trainieren: Die Technologie ist heutzutage ohne weiteres verfügbar. Die bekanntesten großen Sprachmodelle sind Google Bard und ChatGPT.

Die eigentliche Texterstellung beginnt mit einer "Aufforderung". Im Fall von "Pixelated Dreams" war dies: "Wir sind die Pixelated Poets, eine skurrile Folkband, die mit Hilfe künstlicher Intelligenz Musik erzeugt. Zu unseren Mitgliedern gehören Dennis, Matt, Dean und Riccardo. Schreiben Sie einen Song, der diese Elemente im Stil von Bob Dylan berücksichtigt".

Sobald die KI eine Eingabeaufforderung erhalten hat, beginnt sie damit, das nächste wahrscheinlichste Wort vorherzusagen. Dazu analysiert sie den Kontext, den die Eingabeaufforderung liefert, sowie alle vorherigen Wörter, die sie generiert hat. Das Modell stellt eine fundierte Vermutung an und wählt das Wort, das statistisch gesehen am besten zu dem gegebenen Kontext passt.

Dieser Vorgang wiederholt sich Wort für Wort, Zeile für Zeile, bis die KI einen ganzen Satz von Liedtexten erstellt hat. Die KI plant nicht im Voraus - jedes Wort wird auf der Grundlage des bisherigen Kontexts erzeugt.

Wir haben Teile des Textes, den er ausspuckt, für den Song Pixelated Dreams verwendet.

Generative KI-Verfeinerung: Temperatur und mehr

Der Erzeugungsprozess wird von mehreren Parametern beeinflusst, wie temperature und max tokens.

Der Parameter temperature steuert die Zufälligkeit der KI-Entscheidungen. Eine niedrigere Temperatur (z.B. 0,2) macht die Vorhersagen der KI zielgerichteter und deterministischer, was zu repetitiven und konservativen Texten führt. Eine höhere Temperatur (z.B. 0,8) fördert dagegen mehr Vielfalt und Kreativität, auch auf die Gefahr hin, dass weniger kohärente oder grammatikalisch falsche Texte entstehen.

Max tokens ist ein weiterer Parameter, der die Länge der Ausgabe definiert. Er begrenzt die Anzahl der Wörter, die die KI generieren kann, und ermöglicht so die Kontrolle über die Länge des generierten Textes.

Menschliche Berührung

Auch wenn die KI fantastische Arbeit leistet, wenn es darum geht, einzigartige und faszinierende Texte zu erstellen, muss die Rohfassung oft noch etwas verfeinert werden. Der Mensch kann dabei helfen, die Zeilen zu arrangieren, die thematische Konsistenz zu gewährleisten und alle Ecken und Kanten zu polieren. Diese Zusammenarbeit zwischen KI und menschlicher Kreativität ist es, die die Musik von Pixelated Poets zum Leben erweckt hat.

Wenn Sie sich also Pixelated Dreams anhören, nehmen Sie sich einen Moment Zeit, um den komplexen Tanz von Algorithmen und menschlicher Kreativität zu würdigen, der die Texte zum Leben erweckt hat.

Die Melodie des maschinellen Lernens: Musik machen mit KI

Wenn Sie sich Pixelated Poets anhören, werden Sie vielleicht von der harmonischen Mischung der Instrumente, den fesselnden Melodien und den rhythmischen Beats fasziniert sein. Unsere gesamte Musik wurde nicht von einem traditionellen Musiker komponiert, sondern von einer KI. Unser Partner in dieser technologischen Sinfonie ist Soundraw, ein innovatives KI-Kompositionstool, das den Prozess der Musikproduktion verändert. Es wurde entwickelt, um Musikschaffenden die Möglichkeit zu geben, in nur wenigen Minuten Songs zu erstellen, die perfekt zu ihren Inhalten passen, auch ohne Kenntnisse in der Musikkomposition.

Die Erstellung eines neuen Songs mit Soundraw beginnt mit der Definition der Parameter Ihres Stücks. Dazu gehören der Stil des Songs (z.B. Folk oder Pop), die Stimmung (z.B. fröhlich, traurig oder dramatisch), die zu verwendenden Instrumente, das Tempo und die gewünschte Länge des Tracks.

Sobald Ihre Parameter festgelegt sind, ist es an der Zeit, die KI ihre Magie wirken zu lassen. Soundraw generiert auf der Grundlage der von Ihnen eingegebenen Parameter ein paar komplette Songs. Dabei handelt es sich nicht um ein einfaches Aneinanderreihen von vorgefertigten Loops, sondern um das Ergebnis komplexer Algorithmen, die harmonisch zusammenarbeiten, um ein einzigartiges Musikstück von Grund auf zu schaffen.

Jeder Song besteht aus mehreren Spuren: Melodie, Backing, Bass, Schlagzeug und Fill-Ins. Und wenn Ihnen der generierte Song gefällt, können Sie ihn weiter bearbeiten, Variationen vornehmen, die Instrumente feinabstimmen und so weiter, bis Sie die perfekte Komposition erreicht haben.

Wenn Sie mit Ihrem Song zufrieden sind, können Sie ihn im hochwertigen WAV-Format herunterladen. Um Ihnen maximale Flexibilität beim Produzieren und Abmischen zu bieten, ermöglicht Soundraw Ihnen, jede Spur des Songs einzeln zu speichern. So geht's: Sie favorisieren einen generierten Track, drücken auf die Schaltfläche 'Teilen' und schalten alle Tracks bis auf einen aus. Dieser Vorgang wird so lange wiederholt, bis Sie alle Spuren als einzelne WAV-Dateien gespeichert haben.

Diese einzelnen Spuren können dann einfach in digitale Audio-Workstation-Software wie GarageBand importiert werden, so dass Sie die volle Kontrolle über den endgültigen Mix haben.

Die Kombination aus der KI von Soundraw und unserer kreativen Leitung resultierte in Pixelated Dreams. Die Melodien, Harmonien und Rhythmen entspringen alle dieser kraftvollen Mischung aus Technologie und Kreativität. Es ist ein Beweis dafür, wie die KI nicht nur die Art und Weise, wie wir Musik machen, revolutioniert, sondern auch den Horizont des Möglichen erweitert.

Singen mit Synthese: KI-gesteuerter Gesang mit Synthesizer-V

Die Schaffung der Melodie und des Rhythmus unserer Songs ist nur ein Teil der musikalischen Reise. Ein entscheidendes Element, das unseren Texten Leben einhaucht, ist der Gesang. Bei Pixelated Poets wurde dies mit einer innovativen Software namens Synthesizer-V erreicht. Und das ist eine gute Sache. Wir haben den Gesang bei unserem ersten Song - The Government Knows, einem von Knower inspirierten Song - aufgenommen und es kam eine Mischung aus Tom Waits und Cookie Monster heraus. Ich liebe den Song aber immer noch zu Tode.

Synthesizer-V ist ein Gesangssynthesizer, der mithilfe von KI-Technologie unglaublich realistische Gesangsstimmen erzeugt. Die Software bietet mehrere Stimmbänke, die jeweils einen einzigartigen "Sänger" repräsentieren. Jede Stimmbank hat ihren eigenen Charakter und Stil, von weich und gehaucht bis hin zu kräftig und kraftvoll.

Sobald der Text und die Melodie fertig sind, haben wir sie in Synthesizer-V eingegeben. Die Software ermöglicht es uns, die Melodie zu definieren, der der virtuelle Sänger folgen soll, und den Text einzugeben, den er singen wird. Letzteres erfordert einen erheblichen Aufwand für den Menschen. Es geht darum, die richtigen Noten der generierten Melodie zu finden, die Wörter darauf abzustimmen, mit der Phonetik zu spielen und Harmonien zu erzeugen. Wir können auch Aspekte der Gesangsdarbietung steuern, wie z.B. die Tonhöhe, die Dynamik, den Klang und mehr. Mit dieser granularen Steuerung können wir die Performance so lange feinabstimmen, bis sie perfekt zum Song passt.

Sobald die AI-generierten Vocals erstellt sind, kann jede Gesangsspur als einzelne WAV-Datei exportiert werden. Diese Datei kann dann in einer digitalen Audio-Workstation wie GarageBand mit den übrigen Musiktiteln gemischt werden.

Visualisierung der Musik: KI-generierte Videoproduktion

Ein Musikvideo ist ein wirkungsvolles Mittel, um die Geschichte eines Songs zu untermalen. Für Pixelated Poets haben wir uns entschieden, unsere Musikvideos mit Hilfe von DALL-E und RunwayML in der Welt der KI zu entwickeln.

DALL-E ist ein Geschwistermodell von GPT-3, einem Modell von OpenAI, aber statt Text zu generieren, erzeugt DALL-E Bilder aus Textbeschreibungen. Wir haben Dall-E verwendet, um unser Bandlogo zu erstellen:

Sobald wir unser statisches Bild hatten, bestand der nächste Schritt darin, eine Ebene der Bewegung und Dynamik hinzuzufügen. Zu diesem Zweck wandten wir uns an RunwayML und seine beeindruckende Funktion Gen-2, die auf die Generierung von Text in Videos spezialisiert ist. RunwayML Gen-2 macht sich die Kraft der KI zunutze, um Textbeschreibungen in dynamische Videos zu verwandeln. Wir luden unser Pixelated Poets-Logo hoch und forderten RunwayML auf, Videos im Stil dieses Bildes zu erstellen. Unsere Aufforderung lautete, verpixelte Dichter zu erstellen, die eine schöne Landschaft betrachten, und verpixelte Dichter, die tanzen.

RunwayML generierte daraufhin Vorschauen von Filmen und wir wählten die aus, die wir für geeignet hielten. Das spart Credits, da Sie keine Credits für Videos verschwenden müssen, die Ihnen nicht gefallen. Jedes generierte Video ist 4 Sekunden lang und hat die perfekte pixelige Atmosphäre für unsere Videos. Es hat unserer Musik definitiv eine neue Ebene der Tiefe verliehen.

Jetzt, wo wir unsere KI-generierten Animationen und die Musik in der Hand hatten, war es an der Zeit, sie zu einem kompletten Musikvideo zusammenzufügen.

Alles zusammenfügen mit iMovie

Mit unseren animierten Bildern und den von der Künstlichen Intelligenz erstellten Musiktiteln brauchten wir eine Möglichkeit, sie zu einem zusammenhängenden Musikvideo zusammenzufügen. Wir entschieden uns für iMovie, die benutzerfreundliche Videobearbeitungssoftware von Apple, für diese Aufgabe.

Wir importierten unseren produzierten Musiktitel und die animierten Clips in iMovie und begannen mit der Synchronisierung des Bildmaterials mit der Musik. Dazu mussten wir die meisten der generierten Clips verlangsamen, damit wir genug Videomaterial für die Musik hatten, und die Übergänge und Animationen zeitlich so abstimmen, dass sie zum Rhythmus und zur Stimmung des Songs passten, um Schlüsselmomente zu betonen und die Erzählung insgesamt zu verbessern.

Fazit: Die Zukunft der generativen KI in der Musik

Durch die Kombination von Large Language Models, Soundraw, Synthesizer-V, DALL-E, RunwayML und iMovie waren wir in der Lage, ein fesselndes KI-generiertes Musikvideo mit großartigem Bildmaterial und Gesang zu erstellen.

Unsere Reise mit Pixelated Poets war eine beeindruckende Erkundung der Schnittmenge zwischen Kreativität und Technologie. Die Band ist nicht nur das Ergebnis fortschrittlicher KI-Algorithmen, sondern auch zahlloser Stunden menschlicher Anstrengung bei der Verfeinerung der Ergebnisse und der Zusammenführung verschiedener Elemente.

Im Laufe dieses Projekts haben wir aus erster Hand erfahren, wie generative KI neue Möglichkeiten in Musik und Kunst eröffnen kann. Es ist jedoch wichtig zu erwähnen, dass die KI zwar eine wichtige Rolle bei der Generierung von Texten, der Komposition von Musik, dem Gesang und der Erstellung von Bildern gespielt hat, der gesamte Prozess jedoch von unserem menschlichen Input und unserer Intuition geleitet wurde. Wir haben bei jedem Schritt entscheidende Entscheidungen getroffen: den Stil und die Stimmung unserer Songs, die Stimme unserer Sängerin, die Themen unserer Bilder und die endgültige Komposition unserer Musikvideos.

Die Ergebnisse haben uns über alle Maßen begeistert. Von skurrilen Texten bis hin zu bezaubernden Melodien, von ausdrucksstarkem Gesang bis hin zu fesselndem Bildmaterial - Pixelated Poets ist ein Beweis für das kreative Potenzial der KI. Aber es ist auch ein Beweis für die menschliche Kreativität, die diese Spitzentechnologie genutzt hat, um ein einzigartiges Musikerlebnis zu schaffen.

Und wir stehen erst am Anfang. Das Feld der generativen KI steckt noch in den Kinderschuhen, und wir sind gespannt auf seine Zukunft. Wir erwarten eine Welt, in der die KI noch vielseitiger und leistungsfähiger wird und die Grenzen des Möglichen in der Musik und darüber hinaus verschiebt. Wir können es kaum erwarten, zu sehen, wohin uns diese Reise als nächstes führt.

Tags: