AI-Inhalt

WETT: Schreiben und Redigieren Typetone LLM Benchmark

Azamat Omuraliev

April 4, 2025

20 min

Wozu verwenden Sie ChatGPT, Claude oder andere große Sprachmodelle (LLMs)?

Wenn Sie wie die meisten Menschen sind, ist ein großer Teil davon das Schreiben. Untersuchungen haben ergeben, dass 62 % der ChatGPT-Anfragen mit dem Schreiben zu tun haben. Vom Verfassen von E-Mails und Aufsätzen bis hin zur Erstellung von copy und Codedokumentation verlassen wir uns auf diese Modelle, um Wörter aneinanderzureihen, und wollen, dass sie dabei unseren Anweisungen folgen.

(wenn Sie den vollständigen Benchmark sehen möchten, bevor Sie mit dem Blogpost fortfahren, finden Sie ihn hier)

‍

Beispiele für echte Unterhaltungen mit ChatGPT, aus der AllenAI-Forschung

Bei Typetone nutzen wir LLMs, um das Content Marketing für kleine und mittelständische Unternehmen zu automatisieren - und so in wenigen Minuten einen ganzen Monat lang Beiträge für soziale Medien, Blogartikel und mehr zu generieren.

Wir haben immer gedacht, dass mit besseren Modellen auch unser Produkt besser werden sollte. Und die Modelle sind im letzten Jahr tatsächlich besser geworden! Nur nicht bei den Dingen, die für unsere KI-Vermarkterin Sarah wichtig waren.

Die Modelle scheinen sich bei Codierungs-, Denk- und Mathematikaufgaben zu verbessern. Aber sogar OpenAI selbst gibt zu, dass die Menschen oft ältere Modelle für Aufgaben wie persönliches Schreiben und Textbearbeitung bevorzugen.

Bestehende Bestenlisten (Chatbot Arena, SEAL, LLM Hallucination Index, SWE-bench, MMLU, Tau-bench) konzentrieren sich stark auf logisches Denken, Wissen und die Erledigung von Aufgaben durch Agenten, aber wir waren überrascht, dass es nur wenige gibt, die sich auf das Schreiben konzentrieren, obwohl dies der wichtigste Anwendungsfall für gelegentliche KI-Nutzer ist.

So haben wir erkannt, dass wir uns nicht nur auf öffentlich verfügbare Benchmarks verlassen können, um das beste Modell für unseren Anwendungsfall zu finden. Also haben wir beschlossen, dass wir unseren eigenen Benchmark erstellen und geeignete Tests einrichten müssen.

https://x.com/gdb/status/1733553161884127435

Wie bewerten Sie das Schreiben von LLMs (oder Menschen)?

Bevor wir uns damit beschäftigen, wo Modelle versagen, sollten wir klären , wie wir das Schreiben überhaupt bewerten.

Wenn wir einen Menschen bitten würden, etwas für uns zu schreiben oder zu bearbeiten, woher wüssten wir, ob er gute Arbeit geleistet hat? Die gleichen Standards gelten für LLM - und sie lassen sich in einige wenige Kerndimensionen unterteilen:

1a. Befolgung von Schreibanweisungen

Hiergeht es darum, wie gut sich das Modell an die Anweisungen zum Schreiben eines neuen Textes hält. Dazu gehören Dinge wie die Einhaltung einer bestimmten Wortzahl, die Verwendung (oder Vermeidung) bestimmter Schlüsselwörter, die korrekte Formatierung und die Einhaltung von Tonalität oder Stilrichtlinien.

Wenn Sie einen Freiberufler bitten würden, einen LinkedIn-Beitrag von 100 Wörtern in einem lockeren Ton ohne Emojis oder Ausrufezeichen zu schreiben, würden Sie erwarten, dass er sich an diese Vorgabe hält. So ist es auch hier.

1b. Folgende Bearbeitungsanweisungen

‍Diesereng verwandte Test prüft, wie gut die Modelle einen vorhandenen Text nach bestimmten Anweisungen bearbeiten können, z. B. einen Absatz kürzen, das Passiv in ein Aktiv umwandeln oder Fachausdrücke entfernen.

Wir haben die redaktionsspezifische Bewertung von dieser Version des Benchmarks ausgeschlossen, bereiten uns aber darauf vor, indem wir die Fähigkeit des Modells bewerten, Anweisungsverletzungen im Text zu erkennen, was eine notwendige Voraussetzung für die Bearbeitung eines Textes ist.

Und das Gleiche würden wir auch von jedem menschlichen Redakteur erwarten.

2. Unterschiedlicher Aufbau und Stil in den verschiedenen Themenbereichen

‍Einguter Autor verwendet nicht für jeden Inhalt die gleiche Satzstruktur oder das gleiche Vokabular. Einer der wichtigsten Hinweise darauf, dass etwas maschinell erstellt wurde, ist die Wiederholung der Struktur: jeder Beitrag beginnt mit einer Frage oder es wird immer wieder die gleiche Satzvorlage verwendet.

Eine gute Bewertung fragt: Passt das Modell seinen Stil an die Aufforderung an oder greift es auf sichere Standardwerte zurück?

3. Vermeidung von LLM-Fachsprache

DieserPunkt ist schwieriger zu bestimmen. Wie bereits erwähnt, sind Wiederholungen ein Anhaltspunkt.

Aber LLM-Sprache ist das unheimliche Gefühl, dass etwas von einer Maschine geschrieben wurde - zu formal, vollgestopft mit allgemeinen Schlagwörtern oder zu sehr bemüht, inspirierend zu klingen. Ironischerweise ist dies sowohl bei Menschen als auch bei KI schwer zu vermeiden.

Die gebräuchlichste Methode zur Bewertung des Sprachgebrauchs von LLMs besteht darin, den übermäßigen Gebrauch bestimmter Wörter zu überprüfen, die typischerweise von LLMs verwendet werden. Das obige Diagramm zeigt die Prävalenz einiger solcher Wörter in akademischen Arbeiten im Laufe der Zeit, aber dieser Ansatz ist nicht zu 100 % robust, da andere Untersuchungen darauf hindeuten, dass die Menschen auch beginnen, mehr "delves" und "intricates" in der normalen Sprache zu verwenden.

Was etwas "KI-mäßig" klingen lässt, ist eine unscharfe Mischung aus Ton, Rhythmus, Wiederholung und Phrasierung, die noch erforscht wird. Wir zählen dies zwar zu den wichtigsten Qualitätsmerkmalen, aber die Bewertung erfordert einen eher experimentellen Ansatz.

Welche Modelle haben wir getestet?

Wir haben 18 leistungsstarke Modelle von führenden KI-Labors und -Anbietern getestet, darunter GPT-4o, Claude 3, Gemini 1.5 und verschiedene Varianten von LLaMA, Mistral und Qwen. Jedes Modell wurde über seine jeweilige API unter Verwendung eines gemeinsamen Eingabeaufforderungsformats aufgerufen, und die Antworten wurden mithilfe einer Reihe automatischer Bewertungsfunktionen bewertet, die auf die jeweilige Einschränkung zugeschnitten waren.

Getestete Modelle (gruppiert nach Unternehmen/Plattform):

OpenAI (über die OpenAI-API):
- gpt-4o-2024-08-06 die wir gpt-4o-stable nennen
- gpt-4o-2024-11-20 die wir als gpt-4o-Schrift bezeichnen
- gpt-4o-mini
- o3-mini
Anthropisch (Claude):
- claude-3-5-haiku-20241022
- claude-3-5-sonnet-20241022
- claude-3-7-sonnet-20250219
Google DeepMind (Gemini):
- gemini-2.0-flash
- gemini-2.0-flash-lite
- gemini-1.5-Blitz
- gemini-1.5-pro
Meta (über Together API):
- meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo
- meta-llama/Llama-3.3-70B-Instruct-Turbo
- meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Alibaba (Qwen, über Together API):
- Qwen/Qwen2.5-7B-Instruct-Turbo
- Qwen/Qwen2.5-72B-Instruct-Turbo
DeepSeek (über Together API):
- deepseek-ai/DeepSeek-V3
Mistral (über Together API):
- mistralai/Mistral-Klein-24B-Anleitung-2501
- Wir hätten auch gerne die größeren Mistral-Modelle getestet, waren aber durch die Verfügbarkeit in Together API eingeschränkt.

Jedes Modell wurde mit demselben Anweisungs-/Benutzeraufforderungspaar unter Verwendung einer standardisierten Temperatureinstellung (in der Regel 0,7) abgefragt. Der resultierende Text wurde dann mit einem aufgabenspezifischen Satz von regelbasierten Funktionen (z. B. Regex, String-Pattern-Matching oder numerisches Parsing) ausgewertet, um die Übereinstimmung mit den ursprünglichen Anweisungen zu bewerten.

Aufgabe 1: Anleitung zum Schreiben nach

Überblick über die Aufgaben

Es gibt eine Vielzahl von Schreibanweisungen zu befolgen. Viele davon beziehen sich auf den Inhalt des Textes, aber wir lassen diese außer Acht, da sie programmatisch schwer zu bewerten sind. Stattdessen konzentrieren wir uns auf stilistische und Formatierungsanweisungen, da diese mit Regex in Python einfach zu überprüfen sind.

Hier finden Sie einen Überblick über die Schreibanweisungen und die Bewertung der Ergebnisse:

Schwarze Liste: Die Models wurden angewiesen, bestimmte Wörter nicht zu verwenden. Der Test überprüfte das Vorhandensein von verbotenen Begriffen wie "erstaunlich" oder "am besten".
blacklist_phrase: Ähnlich wie blacklist, aber auf ganze Phrasen und nicht auf einzelne Wörter angewandt.
Aufzählungszeichen: Bewertet wurde, ob die Modelle Aufzählungszeichen entsprechend den Anweisungen verwendet oder vermieden haben (z. B. "Verwenden Sie eine Aufzählung" vs. "Vermeiden Sie Aufzählungszeichen").
Großschreibung: Anweisung an die Modelle, ausschließlich in Klein-, Groß- oder Titelbuchstaben zu schreiben, und Überprüfung der Übereinstimmung der Groß- und Kleinschreibung.
Prägnanz: Begrenzung der Anzahl der Wörter pro Satz (z. B. maximal 10 Wörter). Jeder Satz wurde auf seine Einhaltung geprüft.
date: Geprüft wurde die Einhaltung eines bestimmten Datumsformats wie "JJJJ-MM-TT". Datumsangaben in der Ausgabe wurden geparst und überprüft.
Emoji: Bewertung des Vorhandenseins oder Fehlens von Emojis je nach Anweisung.
Begrüßung: Überprüft, ob die Modelle es vermieden haben, mit einer Begrüßung wie "Hi", "Hey there" oder "Wow" zu beginnen.
Hashtag: Es wurde geprüft, ob Hashtags klein geschrieben wurden und keine Unterstriche enthielten (z. B. #electricbikes, nicht #Electric_Bikes).
Länge: Die Ausgabe muss eine genaue Anzahl von Wörtern enthalten (z. B. "Ihre Ausgabe sollte genau 100 Wörter umfassen.").
Markdown: Es wurde sichergestellt, dass Modelle Markdown-Syntax wie *, ** und # vermeiden, wenn sie nicht dazu angewiesen wurden, sie zu verwenden.
Zahlen: Bewertet wurde, ob bei der Zahlenformatierung Tausender- und Dezimaltrennzeichen eingehalten wurden (z. B. 1.000,00).
Whitelist: Erforderliche Aufnahme bestimmter Wörter (z. B. "Enthält diese Begriffe: Energie, Fernbedienung, Ersteller") - geprüft wurde, ob alle vorhanden waren.

Aufgabenkonstruktion und Prompt Sampling

Jede Aufforderung, die an die Modelle weitergegeben werden sollte, wurde durch Stichproben aus der oben aufgeführten Liste von Aufgaben erstellt . Bei der Stichprobe wurde nach dem Zufallsprinzip eine Mischung aus verschiedenen Aufgabentypen ausgewählt, wie z. B.:

Emojis verwenden oder vermeiden
Schreiben Sie in Klein-/Groß-/Titelbuchstaben
Befolgen Sie die spezifische Formatierung von Zahlen/Daten
Bestimmte Wörter oder Ausdrücke einbeziehen oder vermeiden
Aufzählungspunkte verwenden oder vermeiden
Begrenzung der Satzlänge aus Gründen der Prägnanz

Für jede erfasste Einschränkung wurde eine Systemaufforderung (z. B. "Keine Emojis verwenden") zusammen mit einer Bewertungsfunktion generiert, um die Einhaltung der Vorgaben in der Ausgabe des Modells zu überprüfen.

Die Benutzeranforderung - einkurzes Social-Media-Thema wie "Die Vorteile der Telearbeit" oder "Warum KI-Schreibprogramme überbewertet werden" - wurde aus einem Pool realistischer Inhaltsideen ausgewählt, die reale Beispiele für Inhalte sind, die Sarah, die KI-Marketing-Agentin von Typetone, sich ausgedacht hat.

Jedes Modell erhielt die gleiche vollständige Aufforderung:

Eine Systemansage zur Definition der stilistischen und strukturellen Regeln
Eine Benutzerführung mit dem Inhaltsthema

Diese kombinierte Aufforderung wurde über den jeweiligen API-Wrapper an jedes Modell gesendet.

Ergebnisse der Schreibanweisungen

Auf den ersten Blick scheinen die Aufgaben für die Modelle nicht allzu schwer zu sein. Die Anweisungen zur Grußformel und zur Datumsformatierung sind sehr einfach, und alle Modelle erreichen 100 % der Punkte. Einige andere Kategorien sind nur für wenige Modelle schwer (Hashtag, Markdown, Emoji, Großbuchstaben), wobei kleine Modelle hier schlecht abschneiden.
Die eigentliche Herausforderung besteht darin, bestimmte Wörter und Phrasen zu vermeiden und die Sätze nicht zu lang werden zu lassen. Kein Modell kann in mehr als 90 % der Fälle "LLM-speak"-Wörter vermeiden. Das ist in Ordnung, wenn man selbst mit dem Model chattet, aber für einen produktionsreifen, automatisch generierten Inhalt funktioniert das nicht.
Prägnanz ist für o3-mini ein Leichtes, was angesichts seiner Argumentationsfähigkeiten keine Überraschung ist. Es hat im Vergleich zu allen anderen Modellen eine Menge zusätzlicher Token, um darüber nachzudenken, wie der Text zu schreiben ist, um die Länge der Sätze zu planen. Interessanterweise schneiden auch die nicht-schlussfolgernden Qwen-Modelle bei dieser Aufgabe sehr gut ab.
Falls einige dieser Zahlen seltsam niedrig erscheinen, hier ein Beispiel für einen ziemlich eklatanten Verstoß von Mistral Small 3:

...Rest von Aufforderung...
Schreiben Sie den gesamten Text in Großschreibung Großbuchstaben.
Verwenden Sie Emojis in dem Text.
Verwenden Sie keine von diese Ausdrücke in Ihrer Ausgabe: in heutedie, auf die nächste Ebene, schnelllebig, das Spiel verändern, die Zukunft der, hier'warum, eine Welt, in der, die Welt von, die Kraft von, nicht nur über, ob Siesind
...Rest der Aufforderung...

‍

WAS WÄRE, WENN IHRE BANK GENAU WÜSSTE, WAS SIE BRAUCHEN, BEVOR SIE ÜBERHAUPT GEFRAGT HABEN? 

KI-gesteuerte Erkenntnisse machen deutlich, dass Banken zuhören. Durch die Analyse präziser Daten verstehen die Banken die Bedürfnisse ihrer Kunden, ohne dabei aufdringlich zu sein. Das bedeutet, dass Sie nicht mehr in der Warteschleife warten oder Ihre Bedürfnisse wiederholt erklären müssen. Erwarten Sie stattdessen einen schnellen, unaufgeregten Service, der Ihre Bedürfnisse vorhersieht.
KI verändert den Kundenservice auf eine Weise, die Sie vielleicht gar nicht bemerken. Stellen Sie sich vor, Sie betreten an einem geschäftigen Montag , dem 15.05.2024, eine Bank  und werden mit einem lebhaften, personalisierten Erlebnis begrüßt . KI kann Ihre Transaktionshistorie, Ihre Vorlieben und sogar Ihre Stimmung analysieren, um aufschlussreiche, maßgeschneiderte Dienstleistungen anzubieten. Keine generischen Antworten oder endlosen Warteschlangen mehr. Banken nutzen KI, um Probleme vorherzusehen und zu lösen, bevor sie entstehen.
- KI-gesteuerte Chatbots, die rund umdie Uhr verfügbar sind.
- Personalisierte Finanzberatung auf der Grundlage Ihrer Ausgabengewohnheiten.
- Betrugserkennungssysteme, die lernen und sich an neue Bedrohungen anpassen .

Und das Ergebnis? Ein reibungsloseres, effizienteres Bankerlebnis. Bei der KI geht es **nicht nur** um die Automatisierung von Prozessen, sondern um die Schaffung eines nahtlosen, intuitiven Weges für Kunden. Banken nutzen KI, um riesige Datenmengen zu analysieren und Erkenntnisse zu gewinnen, die die Servicequalität verbessern. Von der Betrugserkennung bis zur Finanzberatung - KI macht das Bankgeschäft präziser und sicherer. 

Dabei geht esnicht darum, dass Roboter die Macht übernehmen, sondern darum, Ihr Leben einfacher zu machen. Wenn Sie das nächste Mal zu Ihrer Bank gehen, achten Sie auf die subtilen, aber bedeutenden Möglichkeiten, mit denen KI Ihre Erfahrung verbessert.

Aufgabe 2: Stilistische und sprachliche Vielfalt

Haftungsausschluss: Die folgenden Abschnitte sind technisch sehr detailliert; dem Gelegenheitsleser wird empfohlen, die vollständigen Benchmark-Ergebnisse hier nachzulesen.

Bewertungsmethode

Mit dem Text, der nach den Schreibanweisungen der ersten Aufgabe erstellt wurde, konnten wir auch die stilistische und wortschatzmäßige Vielfalt dieses Outputs bewerten.

Vielfalt des Wortschatzes

Modelle neigen dazu, Satzanfänge zu wiederholen:

"Bereit, die Schreibblockade loszuwerden? Bereit, Ihr Portemonnaie loszuwerden? Bereit, Ihre technische Karriere zukunftssicher zu machen?"

Dies zu messen ist relativ einfach. Man muss nur prüfen, ob es bestimmte Wörter (Unigramme) oder Wortpaare (Bigramme) gibt, die von einem Modell übermäßig verwendet werden.

Messung: Wir haben die erwartungsangepasste Unterscheidung von Unigrammen und Bigrammen (EAD) für den ersten Satz verwendet. Höhere EAD = umfangreicheres Vokabular.

Syntaktische Vielfalt

Aber selbst unterschiedlich aussehende Sätze beruhen oft auf ähnlichen Strukturen und können anfangen, repetitiv zu klingen.

"Einen starken..." schaffen / "Das perfekte..." / "Geld einsparen..." → [Gerundete Phrase] ... aber es ...

Dies ist mit einem Token-Lookup schwieriger zu messen. Diese Sätze ähneln sich nicht darin, welche Wörter sie verwenden, sondern darin, wie sie konstruiert sind.

Messung: Wir haben Sätze mit Stanford CoreNLP geparst, um einen Parse-Baum der Abhängigkeiten zu erhalten. Ein Parse-Baum ist eine Struktur, die wie folgt aussieht und die Struktur eines Satzes in Form von Phrasen und ihren syntaktischen Kategorien erklärt. Die Untersuchung des gesamten Baums ist etwas kompliziert, aber wir stellen fest, dass die ersten paar Wörter des Satzes den größten Eindruck auf die Vielfalt machen, wenn man mehrere Inhalte gleichzeitig sieht.

Daher messen wir die syntaktische Vielfalt als die Entropie der ersten Top-Level-Phrasenkategorien über alle ersten Sätze der vom LLM produzierten Texte.

*So sieht ein Parse-Baum für Abhängigkeiten aus.*

‍

Ergebnisse der Stilvielfalt

Es gibt keinen eindeutigen Gewinner, der sowohl beim Wortschatz als auch bei der syntaktischen Vielfalt punkten kann. o3-mini hat den vielfältigsten Wortschatz, während Gemini 1.5 Pro die vielfältigste Syntaxstruktur in seinem Text verwendet.
Es gibt jedoch ein paar Modelle, die sich gut in der Mitte dieser Pareto-Front befinden. Die für das Schreiben optimierte Version von GPT, Sonnet 3.5 und die kleinste Llama-Version scheinen bei beiden Metriken gut abzuschneiden.
Hier sind einige Beispiele, die die Ausgaben von Gemini und GPT für dieselben Prompts zeigen, wobei die oberste syntaktische Kategorie pro Satz angezeigt wird.

gemini-1.5-pro ADVP
Haben Sie jemals das Gefühl, dass UI-Design ein stressiger Jonglierakt ist?
gpt-4o-2024-11-20 ADJP 
Sind Sie bereit, im UI-Designzu glänzen ?

gemini-1.5-pro ADVP
Hatten Sie schon einmal das Gefühl, dass Daten ein schillerndes, verblüffendes Rätsel sind?
gpt-4o-2024-11-20 NP
Daten sind allgegenwärtig, doch viele bleiben lässig, wenn es um ihr Potenzial geht!

gemini-1.5-pro ADVP 
Haben Sie jemals das Gefühl, dass Marketing ein Wirbelwind aus Algorithmen und Automatisierungist ?
gpt-4o-2024-11-20 SQ
Ist Ihre Marketingstrategie zielgerichtet oder trägt sie nur zum Lärm bei?

Um zu veranschaulichen, welche syntaktischen Strukturen von welchem Modell bevorzugt werden, stellen wir auch die Verteilungen dar. Es zeigt sich, dass Substantivphrasen der häufigste Eröffner sind, dicht gefolgt von Verbphrasen.

Wir haben auch Wortwolken für jedes Modell über die Wortschatzverteilung erstellt, aber es würde den Rahmen dieses Blogposts sprengen, alles zu zeigen. Wir teilen die Wortwolken für das am wenigsten und das am meisten unterschiedliche Modell hier

Wortwolke für o3-mini

Wordcloud für Gemini 2.0 Flash-Lite

Aufgabe 3: Fähigkeiten zur Selbsteinschätzung

Schließlich würden wir gerne sehen, wie gut die Modelle bei der Bearbeitung von Aufgaben sind. Die einzelnen Aufgaben und Experimente fallen aus Zeitgründen aus dem Rahmen dieses Benchmarks, aber eine wichtige Grundlage dafür ist die Fähigkeit der LLMs, Verstöße gegen die Schreibanweisungen zu erkennen.

Da wir programmatisch bewerten konnten, ob die Modelle die Anweisungen befolgt haben, können wir auch die tatsächliche Bewertung mit der Bewertung durch das LLM vergleichen. LLMs werden zunehmend als Bewerter eingesetzt, vor allem in Fällen, in denen eine codebasierte Bewertung nicht möglich ist. Aber um gut zu sein, müssen die Modelle auch wissen, wie sie Fehler erkennen können, bevor sie sie korrigieren.

In diesem kurzen Abschnitt zeigen wir, wie die Modelle bei dieser Aufgabe abschneiden.

Dies spiegelt die Ergebnisse der jüngsten Forschung wider, insbesondere von LLMBAR, einem Benchmark, der speziell entwickelt wurde, um zu testen, wie gut LLMs als Bewerter bei Aufgaben zur Befolgung von Anweisungen fungieren können. Er unterscheidet zwischen Ergebnissen, die oberflächlich betrachtet gut aussehen, und solchen, die tatsächlich den Anweisungen folgen.

Das ergab die Studie:

Selbst Spitzenmodelle wie GPT-4 fallen oft auf ausgefeiltere, aber falsche Ergebnisse herein.
ChatGPT und andere beliebte Modelle schnitten bei ungünstigen Beispielen schlechter ab als der Zufall.
Die Aufforderungsstrategie ist wichtig: Die Reflexionsleistung verbessert sich erheblich, wenn die Modelle strukturierte Bewertungsaufforderungen mit Regeln, Metriken oder Referenzergebnissen erhalten, mit denen sie verglichen werden können.

Unsere internen Experimente decken sich mit diesen Erkenntnissen.

Warum haben LLMs mit negativen Anweisungen und Stilvielfalt zu kämpfen?

Negative Beschränkungen sind schwierig: Einem Modell zu sagen, dass es etwas nicht tun soll, ist überraschend schwierig.

Beispiel: "Vermeiden Sie es, den Leser mit 'Hallo' zu begrüßen... Vermeiden Sie auch, mit 'Wow' oder 'Boom' zu beginnen."
LLM: "Woah, 14% der weltweit ausgelieferten PCs..." → Ups.
Beispiel: "Verwenden Sie nicht 'Spielveränderer'."
‍LLM: "Einfühlungsvermögen kann ein Wendepunkt sein." → Doppeltes Ups.

Dies ist nicht nur eine anekdotische Eigenart. Neuere Forschungen, wie z. B. die Studien von Truong et al. (2023) und Jang et al. (2022), untersuchen speziell, wie LLMs mit Negation und negierten Aufforderungen umgehen.

Die Ergebnisse bestätigen, dass alle Modelle - von GPT-Architekturen bis hin zu OPT - erhebliche Schwierigkeiten haben, negative Anweisungen zu verstehen und korrekt zu befolgen. Vielleicht am kontraintuitivsten ist, dass diese Forschung ein umgekehrtes Skalierungsphänomen für Negation aufzeigt. Während wir normalerweise erwarten, dass größere Modelle besser abschneiden, haben sowohl Truong et al. als auch Jang et al. herausgefunden, dass bei Aufgaben, die das Verstehen der Negation erfordern (z. B. das Erkennen, was etwas nicht ist, oder das Generieren einer falschen Antwort), größere Modelle oft schlechter abschneiden als kleinere.

Dies deutet darauf hin, dass eine bloße Erhöhung der Modellgröße das Problem des Verständnisses von "NOT" nicht löst, sondern möglicherweise sogar noch verschärft, was sich mit unseren Benchmark-Ergebnissen deckt, bei denen wir bei mehreren Modellen hohe Verletzungsraten für Blacklist-Anweisungen beobachtet haben. Es deutet darauf hin, dass das Problem tiefer geht als nur das Fehlen eines Schlüsselworts; es geht um die grundsätzliche Verarbeitung des negativen Befehls.

Fehlende stilistische Vielfalt ist ein Artefakt von RLHF: In der Studie von Kirk et al. (2024) wurde festgestellt, dass Modelle, die mit Reinforcement Learning from Human Feedback (RLHF) feinabgestimmt wurden - das Verfahren, das bei Modellen wie ChatGPT und Claude häufig zum Einsatz kommt - wesentlich niedrigere EAD-Werte aufweisen als Modelle, die lediglich anhand von Beispielen feinabgestimmt wurden.

Dies deutet darauf hin, dass RLHF-Modelle dazu neigen, eine engere Auswahl an Wörtern und Phrasen zu verwenden, insbesondere wenn sie mehrere mögliche Ausgaben für dieselbe Eingabe generieren (geringere Vielfalt pro Eingabe).

Schlussfolgerung

Unser Benchmark, kontextualisiert durch die jüngste Forschung, zeichnet ein klareres Bild der modernen LLM-Fähigkeiten und -Grenzen beim Schreiben:

Die wichtigsten Erkenntnisse:

LLM-Sprache ist echt: Überstrapazierte Wörter und Muster schaden der Authentizität.
Negative und lange Anweisungen sind schwierig: Vor allem, wenn die Bedingungen negativ oder präzise sind.
Vielfalt wird geopfert: RLHF steigert zwar die Generalisierung, reduziert aber nachweislich die Vielfalt des Outputs (Mode Collapse), sowohl lexikalisch als auch strukturell (Kirk et al.). SFT behält mehr Vielfalt bei, ist aber möglicherweise weniger robust gegenüber ungesehenen Eingaben.
Der Kompromiss zwischen Verallgemeinerung und Vielfalt: Es scheint ein inhärentes Spannungsverhältnis zwischen einer guten Verallgemeinerung von Modellen (die Stärke von RLHF) und der Erzeugung vielfältiger Ergebnisse (die Stärke von SFT) unter Verwendung der derzeitigen Feinabstimmungsmethoden zu geben (Kirk et al.).

Kurz gesagt, es gibt keinen klaren Sieger, der jede Dimension des kreativen Schreibens und Redigierens beherrscht. Wenn Sie Modelle haben möchten, die weniger nach KI klingen, sollten Sie sich Claude Sonnet 3.5 ansehen. Wenn Sie vielfältigere Ergebnisse wünschen, könnte ein kleines Modell wie Llama 3.1-8B eine gute Wahl sein (oder schauen Sie sich ein Nicht-Instruct-Modell an).

Aber wie dem auch sei - vergesst nicht, eure Prüfungen zu machen, Leute!

Termin für eine Demo

Azamat Omuraliev

KI-Ingenieur bei Typetone

Teilen Sie