Blog

Große Sprachmodelle - die rechtlichen Aspekte der Lizenzierung für kommerzielle Zwecke

Włodzimierz Marat

Aktualisiert Oktober 15, 2025
12 Minuten

In der sich schnell entwickelnden Landschaft der künstlichen Intelligenz (KI) sind große Sprachmodelle (LLMs) zu unverzichtbaren Werkzeugen für verschiedene Anwendungen geworden, von der Verarbeitung natürlicher Sprache bis hin zur Erstellung von Inhalten.


Da Unternehmen jedoch die Integration von LLMs für kommerzielle Zwecke erforschen, ist es von entscheidender Bedeutung, sich mit der rechtlichen Landschaft zu befassen, die diese fortschrittlichen Technologien regelt. Dazu gehören vielschichtige Aspekte wie Urheberrechte, Lizenzierung, Datenschutz, Beschaffung, Haftung und allgemeinere KI-Transparenz und ethische Fragen.

Angesichts der steigenden Nachfrage nach hochentwickelten LLMs erweist sich die Wahl der Lizenzierung als entscheidender Faktor für die Zugänglichkeit, die Zusammenarbeit und die Gesamtwirkung, insbesondere in kommerziellen Kontexten. Bevor Unternehmen LLMs erwerben oder einsetzen, ist eine umfassende Untersuchung der rechtlichen Komplexität ihrer Nutzung unerlässlich.

In diesem Blogbeitrag werden wir die Vorteile und Überlegungen zur Verwendung von Open-Source-Lizenzen für verschiedene große Sprachmodelle für kommerzielle Zwecke untersuchen. Wir werden Lizenzmodelle untersuchen und den Fall Vicuna und Llama2 näher beleuchten, um schließlich die für Sie am besten geeignete Open-Source-Lizenz zu finden.

Arten von LLMs

Allgemeine vs. maßgeschneiderte LLMs

Große Sprachmodelle können grob in zwei Haupttypen eingeteilt werden: Allgemeine LLMs und benutzerdefinierte LLMs.

Allgemeine große Sprachmodelle (General Large Language Models, LLMs) umfassen Modelle, die eine Vielzahl von sprachbezogenen Funktionen ausführen können, ohne speziell auf einen bestimmten Bereich oder eine bestimmte Anwendung zugeschnitten zu sein. Diese allgemeinen LLMs, wie die GPT-Modelle (Generative Pre-trained Transformer) von OpenAI, werden auf umfangreichen Datensätzen trainiert, die ein breites Spektrum von Sprachmustern und Themen abdecken. Ihre Vielseitigkeit ermöglicht den Einsatz bei Aufgaben wie Texterstellung, Sprachübersetzung, Zusammenfassung und mehr, ohne dass eine auf spezifische Anwendungsfälle zugeschnittene Feinabstimmung erforderlich ist.

Im Gegensatz dazu handelt es sich bei benutzerdefinierten großen Sprachmodellen (Custom Large Language Models, LLMs) um Modelle, die für bestimmte Anwendungen oder Bereiche zusätzlich trainiert oder feinabgestimmt wurden. Unternehmen oder Forscher, die sich mit benutzerdefinierten LLMs beschäftigen, nehmen oft ein bereits vorhandenes allgemeines LLM und verfeinern es, indem sie es einem Datensatz unterziehen, der für eine bestimmte Branche, einen Bereich oder eine Anwendung relevant ist. Dieser Prozess der Feinabstimmung verbessert die Leistung des Modells für bestimmte Aufgaben und macht benutzerdefinierte LLMs für einen engeren Satz von Sprachfunktionen optimiert, die für einen bestimmten Kontext relevant sind. Diese Spezialisierung macht sie folglich in diesen spezifischen Bereichen effektiver.

Proprietäre vs. Open Source LLMs

LLMs arbeiten mit zwei vorherrschenden Modellen: proprietär und Open Source.

Proprietäre LLMs sind Eigentum von Unternehmen, erfordern eine Lizenzierung für die Nutzung und sind oft mit Einschränkungen verbunden, die in den Geschäftsbedingungen beschrieben sind. In der Regel müssen die Benutzer eine Lizenzgebühr zahlen und dürfen die Software oder ihre Ergebnisse nicht ohne Genehmigung weitergeben oder verteilen.

Open-Source-LLMs sind für jedermann frei zugänglich und erlauben die Verbesserung, Änderung und Verbreitung ohne strenge Einschränkungen.

Es liegt an dem Unternehmen, das die LLMs einführen möchte, welche Richtung es einschlagen möchte.

Open Source LLMs Lizenzmodelle

In Bezug auf Open-Source-Modelle können zwei Lizenzmodelle zur Anwendung kommen: Kopierschutzlizenzen und freizügige Lizenzen. Im Folgenden werden wir zwischen diesen beiden unterscheiden.

Die "Copyleft"-Lizenz

In Bezug auf die Copyleft-Lizenzierung gibt es verschiedene rechtliche Aspekte, die sowohl die Urheber als auch die Nutzer von Copyleft-lizenzierten Werken beachten sollten. Hier sind einige rechtliche Überlegungen, die Sie beachten sollten:

Lizenz-Kompatibilität: Es ist wichtig, dass Sie überprüfen, ob Ihre Copyleft-Lizenz mit allen anderen Lizenzen, die für Ihr Werk gelten, übereinstimmt. Bestimmte Lizenzen können miteinander unvereinbar sein, was zu rechtlichen Komplikationen führen kann, wenn Sie versuchen, Werke, die unter verschiedenen Bedingungen lizenziert sind, zusammenzuführen.

Virale Wirkung: Der virale Effekt von Copyleft-Lizenzen schreibt vor, dass jedes Werk, das von einem Copyleft-lizenzierten Werk abgeleitet ist, ebenfalls unter denselben Copyleft-Bedingungen lizenziert werden muss. Dies kann sowohl für die Urheber als auch für die Nutzer erhebliche Probleme mit sich bringen, da es sich auf die Möglichkeit auswirkt, das Werk auf bestimmte Weise zu nutzen und zu verbreiten.

Internationale Erwägungen: Die Copyleft-Lizenzierung ist ein globales Phänomen, und es ist von entscheidender Bedeutung, zu verstehen, wie die gewählte Lizenz in den verschiedenen Rechtsordnungen weltweit ausgelegt und durchgesetzt wird. Verschiedene Länder können unterschiedliche rechtliche Anforderungen und Auslegungen von Copyleft-Lizenzen haben, was eine gründliche Recherche vor der Auswahl einer Lizenz erforderlich macht.

Es gibt zahlreiche Copyleft-Lizenzen, wie z.B. die GNU General Public License (GPL) und die Creative Commons ShareAlike Lizenz. Diese Lizenzen haben zwar unterschiedliche Bedingungen, basieren jedoch auf einem gemeinsamen Prinzip: Unternehmen, die ein Copyleft-lizenziertes Werk verwenden oder verändern, sind verpflichtet, ihr abgeleitetes Werk unter denselben Lizenzbedingungen zu verbreiten. Bitte beachten Sie, dass die Definition eines "abgeleiteten Werks" im Lichte der jeweiligen Open-Source-Lizenz ausgelegt werden muss. Der Begriff "abgeleitetes Werk" (oder der Begriff, der in der Copyleft-Lizenz verwendet wird) ist nicht notwendigerweise so eingeschränkt, wie es ein "abgeleitetes Werk" nach dem Urheberrecht wäre.

Einige Copyleft-Lizenzen definieren "abgeleitetes Werk" als das gesamte Produkt, in dem die Open-Source-Komponente verwendet wird, zusätzlich zu dem Material, das auf der ursprünglichen Komponente basiert. Dies wird als der sogenannte "starke" Copyleft-Effekt bezeichnet.

Die Absicht hinter der Aufnahme von Copyleft-Klauseln ist es, die durch die Open-Source-Lizenz gewährte Freiheit für jedes "abgeleitete Werk" zu erhalten. Das zugrundeliegende Prinzip ist die Förderung kollektiver Beiträge zu einem wachsenden Quellcode-Repository, das offen und für jedermann zugänglich bleibt, um es zu nutzen, kommerziell zu verwerten und weiterzuentwickeln. Im Gegensatz dazu sind kommerzielle Entwickler in der Regel bestrebt, die Vertraulichkeit ihres gesamten Quellcodes zu wahren, um Plagiate und andere Verstöße zu verhindern. Außerdem ziehen sie es oft vor, ihre Produkte unter einer strengen proprietären Lizenz ihrer Wahl zu lizenzieren. Solche Lizenzen gewähren in der Regel nur das Recht, das Produkt für interne Zwecke des Lizenznehmers zu verwenden, ohne dass eine Vermarktung, Änderung oder Weiterentwicklung erlaubt ist. Im Wesentlichen versuchen kommerzielle Entwickler, die durch das Urheberrecht gewährten Exklusivrechte zu bewahren.

Wenn Copyleft-Klauseln ins Spiel kommen, können die Entwickler von "abgeleiteten Werken" die Bedingungen für die Lizenzierung des "abgeleiteten Werks" nicht bestimmen. Daher wird der Copyleft-Effekt oft als kommerziell unrentabel angesehen, wenn eine Open-Source-Komponente ein "abgeleitetes Werk" bildet.

In Übereinstimmung mit den LLMs ist das Beispiel einer Copyleft-Lizenz die GPL 3.0. Die GPL 3.0 verlangt, dass alle abgeleiteten Werke der Software unter derselben Lizenz lizenziert werden. Das bedeutet, dass, wenn Sie in Ihrem Projekt Software verwenden, die unter der GPL 3.0 lizenziert ist, Ihr Projekt auch unter der GPL 3.0 lizenziert sein muss.

Erlaubte Lizenzen

Die Verwendung von permissiven Open-Source-Komponenten stellt in der Regel weniger Herausforderungen dar als die Verwendung von Copyleft-Komponenten, da permissive Lizenzen im Allgemeinen weniger strenge Verpflichtungen auferlegen. Zu den gängigen permissiven Lizenzen gehören Apache 2.0, MIT und verschiedene BSD-Lizenzen. Im Allgemeinen gewähren permissive Lizenzen den Benutzern das Recht, Kopien der lizenzierten Quellcode-Komponente zu verwenden, zu kopieren, zu verändern und zu verbreiten.

Entwickler können die permissiv lizenzierte Software nehmen, sie durch Änderungen oder Ergänzungen zu ihrer eigenen machen, ihre neue Version für sich behalten oder sie weitergeben, wenn sie das möchten. Dies ist eine äußerst positive Eigenschaft, wenn Sie proprietäre Software erstellen möchten, die Sie verkaufen und vor Konkurrenten geheim halten können - und einer der Hauptgründe, warum permissive Lizenzen so beliebt sind.

Diese Lizenzen machen diese Rechte jedoch häufig von der Bereitstellung von Lizenzinformationen für die eigenen Lizenznehmer des Unternehmens abhängig, einschließlich der Nennung der Urheberrechtsinhaber und Haftungsausschlüsse. Die Nichteinhaltung dieser Anforderung kann dazu führen, dass die Gewährung von Open-Source-Lizenzen ungültig wird. Es ist wichtig zu wissen, dass dieses Risiko für alle Open-Source-Lizenzen gilt, nicht nur für die erlaubten. Es kann zu einer Verletzung der Rechte an geistigem Eigentum kommen, wenn Open Source ohne die vollständige Einhaltung der jeweiligen Lizenzbedingungen verwendet wird.

Die beliebtesten erlaubten Lizenzen sind:

  1. Apache 2.0 Lizenz

Erfordert Lizenzhinweise und Urheberrechte auf dem verteilten Code und/oder als Hinweis in der Software. Abgeleitete Werke, größere Projekte oder Modifikationen dürfen jedoch bei der Weitergabe mit anderen Lizenzbedingungen versehen werden und müssen nicht mit dem Quellcode versehen werden.

  1. MIT-Lizenz

Diese trägt den Namen der berühmten Universität, an der sie entstanden ist, und ist sehr kurz und klar und leicht zu verstehen. Sie erlaubt es jedem, mit dem Originalcode zu machen, was er will, solange der ursprüngliche Copyright- und Lizenzhinweis entweder im verteilten Quellcode oder in der Software enthalten ist.

Außerdem lassen sich nicht alle Open-Source-Lizenzen nahtlos mit Komponenten kombinieren, die unter anderen Open-Source-Lizenzen lizenziert sind. So wird beispielsweise allgemein davon ausgegangen, dass eine Komponente, die unter der freizügigen MIT-Lizenz lizenziert ist, in ein größeres Werk integriert werden kann, das unter der Copyleft-Lizenz GPL lizenziert ist. Umgekehrt darf eine unter der GPL-Lizenz lizenzierte Komponente nicht in ein größeres Werk integriert werden, das unter der MIT-Lizenz lizenziert werden soll.

Die Liste der LLMs mit Open-Source-Lizenzen finden Sie auf Github https://github.com/eugeneyan/open-llms

Neuartige Lizenzierungsansätze: RAIL (Responsible AI Licence) Lizenz

Die sich entwickelnde Landschaft führt innovative Lizenzierungsansätze ein, wie z.B. die RAIL-Lizenz, die einen Open-Access-Ansatz mit Verhaltensbeschränkungen kombiniert. Diese nuancierte Urheberrechtslizenz zielt darauf ab, eine verantwortungsvolle KI-Nutzung durchzusetzen, indem sie nutzungsbasierte Einschränkungen für Modelle wie OPT, Stable Diffusion und BLOOM einführt.

Diese Lizenz unterliegt bestimmten Nutzungsbeschränkungen, z.B. darf sie nicht für etwas verwendet werden, das gegen Gesetze und Vorschriften verstößt, Minderjährige ausnutzt oder schädigt, oder für etwas, das "Einzelpersonen oder Gruppen aufgrund ihres sozialen Verhaltens oder bekannter oder vorhergesagter persönlicher oder charakterlicher Merkmale" diskriminiert oder schädigt. Für weitere Informationen - https://www.licenses.ai/

Einige Modelle unter dieser Lizenz sind: OPT, Stabile Diffusion und BLOOM

Bloom ist ein frei zugängliches, mehrsprachiges Sprachmodell, das unter der Lizenz bigscience-bloom-rail-1.0 für die kommerzielle Nutzung zur Verfügung steht, mit Einschränkungen bei der medizinischen Beratung und der Interpretation von medizinischen Ergebnissen.

Fallstudien: Fall Vicuna und Llama2

Vicuna für Forschungszwecke

Vicuna ist ein Open-Source-Chatbot, der durch Feinabstimmung auf LLaMA trainiert wurde. Die Vicuna-Modellkarte würde die Apache 2.0-Lizenz aufweisen, die kommerziell genutzt werden kann. Die LLaMA-Gewichte sind jedoch nicht kommerziell erhältlich. Eine genauere Untersuchung von realen Fällen, wie Vicuna, zeigt die Komplexität der kommerziellen Lizenzierung von LLMs. Trotz einer Apache 2.0-Lizenz schränken die Beschränkungen für die zugrunde liegenden LLaMA-Gewichte die kommerzielle Nutzbarkeit ein und beschränken die Anwendung auf Forschungszwecke.

LLama2 mit zusätzlichen kommerziellen Einschränkungen

In Übereinstimmung mit den LLama2-Bedingungen sind Sie verpflichtet, eine Lizenz von Meta zu beantragen, wenn die Gesamtzahl der monatlich aktiven Nutzer für Produkte oder Dienstleistungen, die vom oder im Namen des Lizenznehmers oder seiner verbundenen Unternehmen angeboten werden, im vorangegangenen Kalendermonat 700 Millionen übersteigt. Meta behält sich das Recht vor, eine solche Lizenz nach eigenem Ermessen zu erteilen, und Sie sind nicht berechtigt, die in diesem Vertrag genannten Rechte auszuüben, solange Meta diese Rechte nicht ausdrücklich erteilt. Dies widerspricht den Prinzipien des Open-Source-Gedankens.

Zweitens, zu den Gewichten: Meta gibt die Gewichte nicht öffentlich bekannt. Um eine Kopie der Gewichte von Meta zu erhalten, müssen Sie einen Antrag stellen. Außerdem dürfen diese Gewichte nicht für das Training eines Sprachmodells (LM) außer Llama 2 verwendet werden, es sei denn, Sie erhalten eine ausdrückliche schriftliche Genehmigung von Meta.

Data Governance und Lizenzierung

Die Lizenzierung von LLMs sollte Teil einer Risikobewertung sein und der Sorgfaltspflicht und/oder einer Data Governance Policy unterliegen.

Sie sollte überarbeitet werden, um die spezifischen Risiken zu berücksichtigen, die entstehen, wenn ein Unternehmen ein LLM entwickelt oder in die Technologie integriert, die es für seine Geschäftstätigkeit oder die Bereitstellung von Produkten oder Dienstleistungen für Kunden verwendet. Es sollte auch eine Reihe von Fragen über die Art der Quellen gestellt werden, aus denen die Daten stammen, die Lizenzvereinbarungen, die mit diesen Daten und dem LLM verbunden sind, und die Methoden, die zur Beschaffung der Daten verwendet wurden. Manchmal erlauben die Plattformen, von denen die Daten bezogen wurden, den öffentlichen Zugang und fördern ihn sogar.

Die rechtlichen Bedingungen für die LLMs und die zu ihrer Ausbildung verwendeten Daten sollten gründlich überprüft werden. Die Überprüfung der rechtlichen Bestimmungen ist besonders wichtig, um das Risiko zu verringern, dass die Genehmigungen einen Datenanbieter oder Plattformbesitzer nicht abdecken oder in einer Weise verwendet werden, die ihre Nutzung in Bezug auf die Ausbildung von LLMs ausdrücklich untersagt.

Für Finanzinstitute (z.B. in Großbritannien durch die Prudential Regulation Authority (PRA) reguliert) ist dies ebenfalls eine regulatorische Angelegenheit. Die PRA hat gesagt, dass sie sicherstellen müssen, dass sie "angemessene Sicherheiten und Unterlagen von Dritten über die Herkunft oder Abstammung der Daten erhalten, um sich zu vergewissern, dass sie im Einklang mit den geltenden rechtlichen und regulatorischen Anforderungen erhoben und verarbeitet wurden".

In anderen Ländern müssen robuste vertragliche Schutzmechanismen geschaffen werden, und es werden interne Governance-Strukturen, Richtlinien, Prozesse und Kontrollen erforderlich sein, um das enorme Potenzial von LLMs für die Umgestaltung der Wirtschaft zu nutzen.

Welche Open-Source-Lizenz ist für Sie am besten geeignet?

  • Copyleft-Lizenz Vorsicht: Bei der Entscheidung für eine Copyleft-Lizenz ist aufgrund der unter Punkt 3 genannten Einschränkungen Vorsicht geboten.
  • Copyleft vs. Freizügig: Im Allgemeinen sind Copyleft-Lizenzen mit mehr Einschränkungen verbunden und bieten im Vergleich zu permissiven Lizenzen möglicherweise weniger Haftung. Wenn die Wiederverwendbarkeit und Weitergabe von Code im Vordergrund steht, ist eine mäßig freizügige Lizenz oft die bessere Wahl.
  • GPL-Versionen und Kompatibilität: Die GPL-Lizenz existiert in zwei Hauptversionen: GPLv2 und GPLv3. Bemerkenswerte Unterschiede in der GPLv3 betreffen Themen, die in der GPLv2 nicht abgedeckt sind, wie z.B. Patente, und verbessern die Kompatibilität mit anderen Open-Source-Lizenzen wie der Apache License 2.0. Es ist wichtig zu wissen, dass GPLv2 und GPLv3 nicht miteinander kompatibel sind.Vorteile der MIT-Lizenzen: MIT-Lizenzen sind weit verbreitet, anerkannt und allgemein bekannt. Unter MIT-Lizenzen lizenzierte Software unterliegt keinen Beschränkungen bei der Weitergabe oder Vermarktung, was sie für verschiedene Anwendungen interessant macht. Außerdem sind MIT-Lizenzen mit vielen anderen Open-Source-Lizenzen kompatibel, so dass Sie MIT-lizenzierten Code in Projekten verwenden können, die andere Lizenzen verwenden.

Kommerzielle Erwägungen

Der kommerzielle Einsatz von LLMs erfordert ein nuanciertes Verständnis der Lizenzbedingungen. Unternehmen müssen die von den Anbietern festgelegten Bedingungen sorgfältig prüfen, um die Einhaltung der Vorschriften zu gewährleisten und über die sich entwickelnden Anforderungen informiert zu bleiben. Die rasanten Entwicklungen, wie z. B. Open-Source-Alternativen zu den ursprünglich eingeschränkten Modellen, unterstreichen die Notwendigkeit einer kontinuierlichen Überwachung in dieser dynamischen Landschaft.

Für eine verantwortungsvolle und effektive Umsetzung ist es unerlässlich, ein Gleichgewicht zwischen den technischen Vorteilen und der rechtlichen Komplexität zu finden. Ein gründliches Verständnis der Lizenzierungsmodelle, gepaart mit einer aufmerksamen Überwachung, ist der Schlüssel, um das transformative Potenzial von LLMs in der sich ständig weiterentwickelnden Landschaft der künstlichen Intelligenz zu erschließen.

Verfasst von

Włodzimierz Marat

Contact

Let’s discuss how we can support your journey.