Generative künstliche Intelligenz, deren Modelle mit riesigen Datenmengen trainiert werden, verändert unsere Art zu arbeiten, zu recherchieren und Informationen zu verarbeiten. Die Anwender springen begeistert auf den anrollenden Zug auf. Large Language Models (LLMs) wie ChatGPT von OpenAI, CoPilot von Microsoft, Gemini von Google, Grok von xAI, Llama von Meta sowie unabhängige („open source“) Applikationen wie Perplexity und das chinesische DeepSeek werden Woche für Woche millionenfach aufgerufen. Für die Nutzer durchsuchen und filtern sie das Internet nach relevanten Informationen auf bestimmte Frage- oder Aufgabenstellungen („prompt“). Das erleichtert und beschleunigt nicht nur den Zugriff auf Fachliteratur, Statistiken oder Forschungsberichte, sondern erlaubt auch die Ausgabe von Zusammenfassungen in gewünschter Länge, Stilform und zeitlicher oder geografischer Begrenzung. Während die auf herstellerspezifischen, geheim gehaltenen Verfahren basierenden KIs in der Regel auf Datenschätze zurückgreifen, die von den Anbietern bisher schon für ihre Suchmaschinen verwendet werden (Google Search, Bing), nutzen offene Systeme als Datenbasis aktuelle, allgemein zugängliche Inhalte aus dem Internet oder von Suchmaschinen, die durch Echtzeit-Websuchen abgerufen werden. Das ist ein klarer Vorteil gegenüber proprietären LLMs, die oft nur auf zeitlich zurückliegende Trainingsdaten zurückgreifen. Fast alle KI bieten neben kostenlosen Basisversionen tiefer und breiter suchende Bezahl-, sogenannte Pro-Versionen. Neben den auf Sprache basierenden Anwendungen gibt es grafische Tools wie DALL-E. Sie erstellen auf Basis von Textbeschreibungen einzigartige Bilder und Grafiken, die für die schnelle Visualisierung von Konzepten und die Erstellung von visuellen Inhalten verwendet werden. Auch hierfür gibt es eine große Nachfrage. Dennoch, wenn heute von „KI“ gesprochen wird, sind in der Regel LLM-Chatbots und Assistenten gemeint, die aus vorhandenen Texten neue Texte generieren. In der Wissenschaft, im Gesundheitswesen und in den kreativen Teilen der Wirtschaft sind diese Werkzeuge bereits unverzichtbar. Und wie überall, wo sich Märkte mit Gewinnchancen auftun, schreitet die Differenzierung voran. Inzwischen gibt es für Gesundheit, Softwareentwicklung, Bau, Fertigung, Maschinenbau, Recht, Finanzen und für den Bildungssektor spezifische KI-Anwendungen auf der Basis thematisch relevanter Datenbanken. Sie werden durchgehend im kostenpflichtigen Abonnement angeboten. Unternehmensjuristen, die ihr Budget nicht darauf verwenden oder die eigene Intelligenz nur sporadisch befeuern lassen wollen, sollten die unentgeltlichen Eine-für-Alles-Anwendungen zumindest einmal ausprobieren. Wissen müssen sie dabei allerdings, dass die LLM ebenso wie Suchmaschinen darauf programmiert sind, maximale Informationen aus den Nutzern herauszusaugen. Jeder Prompt verspricht den Anbietern bares Geld: Zum einen nutzen Google, Meta, Microsoft, xAI und ChatGPT diese Informationen, um Werbung exakt zu platzieren, zum anderen wird die vorhandene Datenbasis mit jeder weiteren Fragestellung trainiert. Wobei die KI zunehmend ihren Tonfall ändert. Besonders ChatGPT und die KI-Assistenten von Meta, eingebunden bei WhatsApp, und Microsoft, integriert in die Suchmaschine Bing, werden immer aufdringlicher: Sie liefern nicht nur die gewünschten Antworten, sondern fordern die Fragesteller zur Kommunikation auf, um im Dialog weitergehende Interessen und Wünsche auszukundschaften. Auch wenn sich der Markt durch Zusammenschlüsse und Kooperationen in den kommenden Jahren bereinigen wird, dürfte dieser Trend anhalten. Denn aus den Fragen der User lässt sich Bedarf an weiteren, kostenpflichtigen Diensten ableiten.
Mehrdeutige Antworten
Ein zentraler Faktor für die Qualität der Ergebnisse einer LLM-Anwendung ist die Formulierung der Frage oder des Auftrags. Je eindeutiger und präziser der Prompt verfasst ist, desto größer ist die Chance, dass das LLM die Anfrage richtig versteht und gezielt darauf eingeht. Unklare oder vage Anfragen beziehungsweise Aufträge führen häufig zu ungenauen oder mehrdeutigen Antworten. Das Bereitstellen von relevantem Kontext hilft dem Modell, die Anfrage einzuordnen und spezifischer zu antworten. Ohne Hinweise an die Software („zum Beispiel wie…“, „detaillierter als …“, „schließe Kommentare ein“, „berücksichtige auch Entscheidungen, die zehn und mehr Jahre zurückliegen“) kann die KI zu allgemeine oder sogar irrelevante Antworten liefern. Die Angabe eines gewünschten Antwortformats (Liste, Tabelle, Fließtext) und die Strukturierung der Anfrage, zum Beispiel durch Unterteilung in Teilaufgaben, erleichtern es dem Modell, die Erwartungen zu erfüllen und die Antwort nutzbar aufzubereiten. Die Wahrscheinlichkeit, dass das Resultat den Anforderungen entspricht, steigt ebenfalls mit der Klarheit der Anweisungen, was das Modell tun soll („Erkläre“, „Vergleiche“, „Erstelle eine Zusammenfassung“). Hilfreich sind auch Hinweise zu Stil, Ton oder Zielgruppe. Zu warnen ist jedoch vor zu engen Vorgaben für den Inhalt der gewünschten Antwort. Denn damit steigt das Risiko, dass die KI widersprechende Informationen schlicht ausfiltert und das Ergebnis unvollständig bleibt. Das weiß Dan-Alexander Levien, denn der Leiter im Zentralen Rechtsservice der Audi AG in Ingolstadt beschäftigt sich schon länger mit der generativen KI. Weil sein Arbeitgeber lediglich eine Anwendung freigegeben hat, nutzt er CoPilot von Microsoft für Recherche und Texterstellung, zur Bildgenerierung für Präsentationen, zur Verifizierung von Änderungen in Open Source-Lizenztexten auf juristische Relevanz sowie für das Lösen von IT-Fragestellungen, zum Beispiel im Zusammenhang mit der Erstellung von Pivot-Tabellen. Im Großen und Ganzen angetan, aber mit Vorbehalt empfiehlt Levien seinen Kollegen die Nutzung der digitalen Helfer: „Man lernt die Stärken und Schwächen dieser Werkzeuge erst durch regelmäßige Anwendung kennen. Um die Effizienz der Arbeit zu steigern und die Kosten zu senken, muss man sie mit Verstand nutzen. Wenn wir die Schwächen der KI kennen und die sich laufend ändernden Systemgrenzen verstehen, wird die Qualität unserer Beratung steigen und unser Haftungsrisiko als Rechtsanwälte kontrollierbar bleiben.“ Die schnelle Zusammenfassung längerer Texte erleichtere seine Arbeit, gewiss, aber ein großes Problem sei die Beliebigkeit der Ergebnisse. „Ich bekomme an unterschiedliche Tagen unterschiedliche Qualitäten heraus“, bemängelt Levien. „Und damit können wir Juristen nicht arbeiten. Wir brauchen es genau.“ Ihm ist es wichtig, dass eine KI Quellenangaben mitliefert. Das machen nicht alle. Aber dann ärgert er sich, wenn er sieht, dass die angegebene Quelle nicht zur Frage passt oder dass die Frage falsch verstanden wurde. Technologisch hat sich in kurzer Zeit sehr viel getan. „Dennoch gibt es Kinderkrankheiten, mit denen wir umgehen müssen“, sagt Levien. Ein Weg sei dabei, dass der Bereich Legal mit der internen IT einen als Open Source verfügbaren LLM für eine ganz spezielle Fragestellung selbst trainiert. „Man muss das sehen, mitmachen und daran mitwachsen“, wirbt der Leiter in der Rechtsabteilung für das spielerische Ausprobieren. „Ich bin jedes Mal neugierig, was heute dabei herauskommt, und ich lerne dabei ständig mit.“ Wer nun fragt, welches die beste Such- und Findemaschine ist, dürfte jetzt enttäuscht sein. Denn es gibt keine universell beste Anwendung. Die Relevanz der Antworten auf eine Frage beziehungsweise die Qualität der Aufgabenlösung hängt neben der präzisen Formulierung der Frage oder des Auftrags von der Größe und Aktualität der Datenbasis ab. Hierauf hat der Nutzer freilich keinen Einfluss. Um das Ergebnis abzusichern, empfiehlt es sich, dieselbe Frage an unterschiedliche KI zu richten und die Resultate miteinander zu vergleichen. Genau das haben wir mit drei für die Rechtsabteilung typischen Fragestellungen getan und die Antworten der sechs meistgenutzten KI in deren aktueller Fassung (ChatGPT, CoPilot, DeepSeek, Gemini, Grok und Perplexity) miteinander verglichen.
„Wenn wir die Schwächen der KI kennen, wird die Qualität unserer Beratung steigen und unser Haftungsrisiko als Rechtsanwälte kontrollierbar bleiben.“
Dan-Alexander Levien
Leiter im Zentralen Rechtsservice,
AUDI AG
Frage 1: Was muss ein Unternehmen leisten, um die Pflicht zur Erfassung wesentlicher Nachhaltigkeitsinformationen nach der CSRD zu erfüllen?
Während sich ChatGPT und DeepSeek mit kaum mehr als 900 Zeichen auf kursorische Antworten beschränkten, lieferten Grok und Perplexity mit drei- bis vierfachem Umfang sehr detaillierte Handlungsanleitungen, angefangen bei der Prüfung der Berichtspflicht bis hin zu Informationen auf die vorgeschriebenen digitalen Formate der zu erstellenden Berichte (XHTML, Inline XBRL). Der wichtige Hinweis auf die doppelte Wesentlichkeitsanalyse war DeepSeek keine Erwähnung wert. Bei keiner der getesteten KI fehlte die Information, dass die Berichterstattung den European Sustainability Reporting Standards (ESRS) zu folgen hat, am ausführlichsten bei Grok, am knappsten bei CoPilot. Als einzige KI wies Grok klar und deutlich auf Übergangsregelungen hin, bei CoPilot wurden sie implizit aufgeführt. Perplexity hielt die vorgeschriebene Einbindung in den Lagebericht für nicht erwähnenswert.
Gesamturteil: Die Antwort von Perplexity zeichnet sich durch die sauberste Gliederung, die von Grok durch die Kleinteiligkeit der Informationen aus. In der Detailtreue der Antwort konnte keine KI gegenüber einer gründlichen Google-Suche punkten – außer beim Tempo.
Frage 2: Wie kann ich mit anderen Maßnahmen als Compliance-Schulungen sicherstellen, dass unsere Mitarbeitenden sich an die gesetzlichen Spielregeln halten?
Alle KI listeten die bekannte Schutzmaßnahmen auf: Leicht verständliche Richtlinien und Prozesse, einfache Meldewege, regelmäßige Kommunikation, Vorbildfunktion der Führung, Installation von Anreizsystemen, Aufforderung zum Whistleblowing. Bei Gemini fehlte die Anregung zur Einführung vertraulicher Meldesysteme gänzlich. Dafür schlug diese KI als einzige vor, die Anforderungen der Compliance schon in den Onboarding-Prozess zu integrieren. Die Antwort von DeepSeek unterschied sich von den anderen KI in der übersichtlich gegliederten Form, nicht aber im Inhalt. Über die Standardmaßnahmen hinaus machte Grok auf neuere Ansätze wie Storytelling und Gaming aufmerksam, Auffällig war, dass einzig Gemini bei Regelverstößen auf klar definierte und kommunizierte Konsequenzen aufmerksam machte.
Gesamturteil: Die Ausführlichkeit einer Antwort ist kein Indiz für deren Gehalt. Wer bei dieser Fragestellung nur eine oder zwei der untersuchten KI nutzt, verzichtet auf wertvolle Anregungen.
Frage 3: Was muss die Rechtsabteilung tun, um Konformität mit der EU Pay Transparency Directive herzustellen?
Bei der Antwort auf diese Frage ragt KI Grok vom US-Unternehmen xAI, gegründet von Elon Musk, mit Abstand hervor. Die zu ergreifenden Maßnahmen werden lückenlos – von „die Anforderungen verstehen“ bis „auf intersektionale Diskriminierung achten“ – beschrieben und mit praxisnahen Tipps zur Umsetzung („praktische Schritte für die Rechtsabteilung“) vervollständigt. Hilfreich nach der dem Standard folgenden, aber wieder sehr logisch gegliederten Perplexity-Antwort ist der Hinweis auf Folgefragen, die sich dem Anwender möglichweise stellen können. CoPilot hingegen bekommt aufgrund seiner lakonischen Antwort (interne Richtlinien anpassen, Gleichstellung sicherstellen, Berichtspflichten erfüllen, Schulung und Kommunikation) hier nur die Mindestpunktzahl.
Gesamturteil: Allen voran Grok, aber auch Gemini und DeepSeek liefern dem Fragesteller einen brauchbaren Handlungsfaden, an dem er oder sie sich weiter entlang hangeln können.
■ Christine Demmer
