AI-indhold

WETT: Skrivning og redigering Typetone LLM Benchmark

Azamat Omuraliev

•

4. april 2025

•

20 minutter

Overskrift 2

Hvad bruger du ChatGPT, Claude eller andre store sprogmodeller (LLM'er) til?

Hvis du er som de fleste, handler en stor del af det om at skrive. Faktisk viser undersøgelser, at svimlende 62% af ChatGPT-anmodningerne er skriverelaterede. Fra udarbejdelse af e-mails og essays til generering af copy og kodedokumentation er vi afhængige af, at disse modeller sætter ord sammen, og at de følger vores instruktioner, når de gør det.

(hvis du vil se det fulde benchmark, før du fortsætter med blogindlægget, kan du finde det her)

‍

Eksempler på rigtige samtaler med ChatGPT, fra AllenAI-forskning

Hos Typetone udnytter vi LLM'er til at automatisere indholdsmarkedsføring for små og mellemstore virksomheder - og genererer en hel måneds indlæg på sociale medier, blogartikler og meget mere på få minutter.

Vi har altid tænkt, at med bedre modeller skulle vores produkt også blive bedre. Og modellerne blev faktisk bedre sidste år! Bare ikke på de ting, der var vigtige for vores AI-marketingagent Sarah.

Modellerne ser ud til at blive bedre til kodning, ræsonnement og matematikrelaterede opgaver. Men selv OpenAI indrømmer, at folk ofte foretrækker ældre modeller til opgaver som personlig skrivning og redigering af tekst.

Eksisterende ranglister (Chatbot Arena, SEAL, LLM Hallucination Index, SWE-bench, MMLU, Tau-bench) fokuserer i høj grad på ræsonnement, viden og agentisk opgaveløsning, men vi var overraskede over at finde få med fokus på skrivning, på trods af at dette er den vigtigste brugssag for en tilfældig AI-bruger.

Det var sådan, vi indså, at vi ikke kun kan stole på offentligt tilgængelige benchmarks for at vælge den bedste model til vores brugssag. Så vi besluttede, at vi var nødt til at lave vores egen benchmark og sætte ordentlige evalueringer op.

https://x.com/gdb/status/1733553161884127435

Hvordan vurderer du skrivning fra LLM'er (eller mennesker)?

Før vi dykker ned i, hvor modellerne kommer til kort, er det værd at afklare, hvordan vi overhovedet evaluerer skrivning.

Hvis vi bad et menneske om at skrive eller redigere noget for os, hvordan ville vi så vide, om de gjorde et godt stykke arbejde? De samme standarder gælder for LLM'er - og de kan opdeles i nogle få kernedimensioner:

1a. Følger skriveinstruktioner

‍Dettehandler om, hvor godt modellen overholder instruktionerne for at skrive noget nyt. Det omfatter ting som at holde sig inden for et givet antal ord, bruge (eller undgå) bestemte nøgleord, formatere korrekt og matche retningslinjer for tone eller stil.

Hvis du bad en freelancer om at skrive et LinkedIn-indlæg på 100 ord i en afslappet tone uden emojis eller udråbstegn, ville du forvente, at de fulgte den briefing. Det samme gælder her.

1b. Følg redigeringsinstruktioner

‍Nærtbeslægtet tester dette, hvor godt modeller kan redigere eksisterende tekst i henhold til specifikke instruktioner - som at forkorte et afsnit, ændre passiv stemme til aktiv eller fjerne jargon.

Vi udelukkede den redigeringsspecifikke evaluering fra denne version af benchmarket, men forberedte os på den ved at evaluere modellens evne til at genkende instruktionsbrud i teksten, hvilket er en nødvendig forudsætning for at kunne redigere i en tekst.

Og igen, vi ville forvente det samme af enhver menneskelig redaktør.

2. Varierende struktur og stil på tværs af emner

‍ Enstærk skribent bruger ikke den samme sætningsstruktur eller det samme ordforråd til hvert stykke indhold. Et af de største tegn på, at noget er maskingenereret, er gentagelsen af strukturen: at starte hvert indlæg med et spørgsmål eller at bruge den samme sætningsskabelon igen og igen.

En god evaluering spørger: Tilpasser modellen sin stil til opfordringen, eller falder den tilbage på sikre standardindstillinger?

3. Undgå at tale LLM-sprog

‍Denneer sværere at sætte fingeren på. Som tidligere nævnt er gentagelser et tegn.

Men LLM-speak er den uhyggelige fornemmelse af, at noget er skrevet af en maskine - alt for formelt, fyldt med generiske buzzwords eller i et alt for ihærdigt forsøg på at lyde inspirerende. Ironisk nok er det svært at undgå for både mennesker og AI.

Den mest almindelige måde at evaluere LLM-sprog på er at tjekke overforbrug af bestemte ord, der typisk bruges af LLM'er. Grafen ovenfor viser udbredelsen af nogle få af disse ord i akademiske artikler over tid, men denne tilgang er ikke 100% robust, fordi anden forskning tyder på, at folk også er begyndt at bruge flere "delves" og "intricates" i normal tale.

Hvad der får noget til at lyde "AI-agtigt" er en uklar blanding af tone, rytme, gentagelse og frasering, som der stadig forskes i. Så selv om vi inkluderer det som en vigtig kvalitetsakse, er det en, der kræver en mere eksperimentel tilgang til evaluering.

Hvilke modeller testede vi?

Vi testede 18 højtydende modeller fra førende AI-laboratorier og -udbydere, herunder GPT-4o, Claude 3, Gemini 1.5 og forskellige LLaMA-, Mistral- og Qwen-varianter. Hver model blev påkaldt via sin respektive API ved hjælp af et fælles promptformat, og svarene blev scoret ved hjælp af en række automatiserede evalueringsfunktioner, der var skræddersyet til hver begrænsning.

Afprøvede modeller (grupperet efter virksomhed/platform):

OpenAI (via OpenAI API):
- gpt-4o-2024-08-06 som vi kalder gpt-4o-stable.
- gpt-4o-2024-11-20 som vi kalder gpt-4o-writing
- gpt-4o-mini
- o3-mini
Antropisk (Claude):
- claude-3-5-haiku-20241022
- claude-3-5-sonnet-20241022
- claude-3-7-sonnet-20250219
Google DeepMind (Gemini):
- gemini-2.0-flash
- gemini-2.0-flash-lite
- gemini-1.5-flash
- gemini-1.5-pro
Meta (via Together API):
- meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo
- meta-llama/Llama-3.3-70B-Instruct-Turbo
- meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Alibaba (Qwen, via Together API):
- Qwen/Qwen2.5-7B-Instruktions-Turbo
- Qwen/Qwen2.5-72B-Instruktions-Turbo
DeepSeek (via Together API):
- deepseek-ai/DeepSeek-V3
Mistral (via Together API):
- mistralai/Mistral-Small-24B-Instruct-2501
- Vi ville også gerne have benchmarket de større Mistral-modeller, men var begrænset af tilgængeligheden i Together API.

Hver model blev forespurgt med det samme par af instruktioner/brugeropfordringer ved hjælp af en standardiseret temperaturindstilling (typisk 0,7). Den resulterende tekst blev derefter evalueret ved hjælp af et opgavespecifikt sæt regelbaserede funktioner (f.eks. regex, string pattern matching eller numerisk parsing) for at vurdere overholdelsen af de oprindelige instruktioner.

Opgave 1: Skriv instruktion efter

Oversigt over opgaver

Der er en række forskellige skriveinstruktioner, der skal følges. Mange af dem handler om tekstens indhold, men dem lader vi ligge, da de er svære at vurdere programmatisk. I stedet fokuserer vi på stilistiske og formateringsmæssige instruktioner, da disse er enkle at kontrollere med regex i Python.

Her er en oversigt over skriveinstruktioner, og hvordan output blev evalueret:

Sortliste: Modellerne blev bedt om ikke at bruge bestemte ord. Testen kontrollerede for tilstedeværelsen af forbudte udtryk som "fantastisk" eller "bedst".
blacklist_phrase: Svarer til blacklist, men anvendes på hele sætninger i stedet for enkelte ord.
punktopstillinger: Vurderede, om modellerne brugte eller undgik punktopstilling som anvist (f.eks. "Brug en punktopstilling" vs. "Undgå at bruge punktopstilling").
store bogstaver: Instruerede modellerne i at skrive udelukkende med små eller store bogstaver eller titelbogstaver og kontrollerede, at bogstaverne var ens.
Kortfattethed: Begrænsede antallet af ord pr. sætning (f.eks. maks. 10 ord). Hver sætning blev vurderet for overholdelse.
date: Testede overholdelse af et specificeret datoformat som "YYYY-MM-DD". Datoer i output blev analyseret og kontrolleret.
emoji: Vurderede tilstedeværelsen eller fraværet af emojis afhængigt af instruktionen.
Hilsen: Kontrolleret, om modellerne undgik at starte med en hilsen som "Hej", "Hejsa" eller "Wow".
hashtag: Vurderede, om hashtags var med små bogstaver og uden understregninger (f.eks. #electricbikes, ikke #Electric_Bikes).
længde: Kræver, at output er et nøjagtigt antal ord (f.eks. "Dit output skal være nøjagtigt 100 ord.").
markdown: Sikrede, at modeller undgik Markdown-syntaks som *, ** og #, hvis de blev bedt om ikke at bruge dem.
tal: Vurderet, om numerisk formatering fulgte specificerede tusindtals- og decimalseparatorer (f.eks. 1.000,00).
hvidliste: Krævede inkludering af specifikke ord (f.eks. "Inkluder disse termer: energi, fjernbetjening, skaber") - kontrollerede, at alle var til stede.

Opgavekonstruktion og hurtig prøveudtagning

Hver besked, der skulle sendes til modellerne, blev bygget ved at tage en stikprøve fra listen over opgaver ovenfor. Prøveudtagningen valgte tilfældigt en blanding af instruktionstyper som f.eks:

Brug eller undgå emojis
Skriv med små/store/store bogstaver
Følg specifik nummer-/datoformatering
Inkluder eller undgå bestemte ord eller sætninger
Brug eller undgå punktopstillinger
Begræns sætningslængden for at gøre den kortfattet

For hver af de udvalgte begrænsninger blev der genereret en systemprompt (f.eks. "Brug ikke emojis") sammen med en evalueringsfunktion til at kontrollere overholdelse i modellens output.

Brugeropfordringen - etkort socialt medieemne som "Fordelene ved fjernarbejde" eller "Hvorfor AI-skriveværktøjer er overhypede" - blev udvalgt fra en pulje af realistiske indholdsidéer, som er eksempler på indhold fra det virkelige liv, som Sarah, Typetones AI-marketingagent, kom med.

Hver model fik den samme fulde prompt:

En systemprompt, der definerer de stilistiske og strukturelle regler
En brugerprompt med indholdsemnet

Denne kombinerede prompt blev sendt til hver model via dens respektive API-wrapper.

Resultater af skriveinstruktioner

I første omgang ser det ud til, at opgaverne ikke er for svære for modellerne. Hilsener og datoformateringsinstruktioner er meget nemme, og alle modeller scorer 100 %. Nogle andre kategorier er kun svære for nogle få modeller (hashtag, markdown, emoji, case), og her klarer de små modeller sig dårligt.
Den virkelige udfordring er at undgå specifikke ord og sætninger og at holde sætningerne under en vis længde. Ingen model kan undgå "LLM-speak"-ord i mere end 90 % af tilfældene. Det er fint, hvis du selv chatter med modellen, men det går ikke, når det drejer sig om automatisk genereret indhold i produktionshøjde.
Kortfattethed er let for o3-mini, hvilket ikke er en overraskelse i betragtning af dens ræsonneringsevne. Den har i bund og grund en masse ekstra tokens sammenlignet med alle andre modeller til at tænke over, hvordan teksten skal skrives for at planlægge sætningernes længde. Interessant nok klarer Qwen-modeller, der ikke ræsonnerer, sig også rigtig godt på denne opgave.
Hvis nogle af disse tal virker underligt lave, er her et eksempel på en ret åbenlys overtrædelse fra Mistral Small 3:

...resten af prompte...
Skriv hele teksten i store store bogstaver.
Brug emojis i teksten.
Brug ikke nogen af af disse sætninger i dit output: i i dag's, til det næste niveau, tempofyldt, ændre spillet, fremtiden for, her'er hvorfor, en verden hvor, verden af, kraften afikke kun handler om, om duer
...resten af prompten...

‍

HVAD NU, HVIS DIN BANK VIDSTE PRÆCIS, HVAD DU HAVDE BRUG FOR, FØR DU OVERHOVEDET HAVDE SPURGT? 

AI-drevne indsigter gør det tydeligt, at bankerne lytter. Ved at analysere præcise data forstår bankerne kundernes behov uden at være indlysende eller påtrængende. Det betyder, at du ikke længere skal vente i kø eller forklare dine behov gentagne gange. I stedet kan du forvente en hurtig og ubesværet service, der forudser dine behov.
AI forandrer kundeservice på  måder, du måske ikke engang lægger mærke til. Forestil dig at gå ind i en bank på en travl mandag den 15.05.2024 og blive mødt  med en livlig, personlig oplevelse. AI kan analysere din transaktionshistorik, dine præferencer og endda dit humør for at levere oplysende, skræddersyede tjenester. Ikke flere generiske svar eller endeløse køer. Bankerne bruger AI til at forudsige og løse problemer, før de opstår.
- AI-drevne chatbots tilgængelige 24/7.
- Personlig økonomisk rådgivning baseret på dine forbrugsvaner.
- Systemer til afsløring af svindel, der lærer og tilpasser sig nye trusler.

Hvad er resultatet? En smidigere og mere effektiv bankoplevelse. AI handler **ikke bare** om at automatisere processer; det handler om at skabe en problemfri, intuitiv rejse for kunderne. Banker bruger AI til at analysere store mængder data og give indsigt, der forbedrer servicekvaliteten. Fra at opdage svindel til at tilbyde finansiel rådgivning gør AI bankvirksomhed mere præcis og sikker. 

Men det handler ikke om, at robotterne skal tage over; det handler om at gøre dit liv lettere. Næste gang du besøger din bank, så læg mærke til de subtile, men betydningsfulde måder, AI forbedrer din oplevelse på.

Opgave 2: Stilistisk og ordforrådsmæssig mangfoldighed

Ansvarsfraskrivelse: De næste afsnit er ret teknisk dybdegående; den almindelige læser anbefales at tjekke de fulde benchmark-resultater her.

Evalueringsmetode

Med den tekst, der blev produceret ved at følge skriveinstruktionerne fra den første opgave, kunne vi også evaluere dette output på stilistisk og ordforrådsmæssig mangfoldighed.

Mangfoldighed i ordforråd

Modeller har en tendens til at genbruge sætningsstartere:

"Klar til at droppe skriveblokeringen? Klar til at droppe din tegnebog? Klar til at fremtidssikre din tech-karriere?"

Det er ret nemt at måle dette. Man skal bare tjekke, om der er bestemte ord (unigrammer) eller ordpar (bigrammer), der bliver brugt for meget af en model.

Måling: Vi brugte Expectation-Adjusted Distinct unigrams and bigrams (EAD) på den første sætning. Højere EAD = rigere ordforråd.

Syntaktisk mangfoldighed

Men selv sætninger, der ser forskellige ud, er ofte baseret på lignende strukturer og kan begynde at lyde ensformige.

"At skabe en stærk..." / "At finde den perfekte..." / "At spare penge..." → [Gerundium-sætning] ... men det ...

Det er sværere at måle med et token-opslag. Disse sætninger ligner ikke hinanden i forhold til, hvilke ord de bruger, men i forhold til, hvordan de er konstrueret.

Måling: Vi analyserede sætninger ved hjælp af Stanford CoreNLP for at undersøge og få et afhængighedsparse-træ. Et parsetræ er en struktur, der ser sådan ud, og det forklarer en sætnings struktur i form af fraser og deres syntaktiske kategorier. Det er lidt kompliceret at undersøge hele træet, men vi kan se, at de første par ord i sætningen gør størst indtryk på mangfoldigheden, når man ser flere indhold på samme tid.

Så vi måler syntaktisk mangfoldighed som entropien af første sætnings kategorier på øverste niveau på tværs af alle første sætninger i tekster produceret af LLM.

*Sådan ser et dependency parse tree ud.*

‍

Resultater af stildiversitet

Der er ingen klar vinder, der scorer højt på både ordforråd og syntaktisk diversitet. o3-mini har det mest varierede ordforråd, mens Gemini 1.5 Pro bruger den mest varierede syntaksstruktur i sin tekst.
Men der er et par modeller, der ligger pænt i midten af denne Pareto-front. Den skriveoptimerede udgave af GPT, Sonnet 3.5 og den mindste Llama-version ser ud til at score godt på begge parametre.
Her er nogle illustrative eksempler, der viser output fra Gemini og GPT på de samme spørgsmål, hvor den syntaktiske kategori på øverste niveau vises pr. sætning.

gemini-1.5-pro ADVP
Har du nogensinde følt, at UI-design er en stressende jonglering?
gpt-4o-2024-11-20 ADJP 
Klar til at brillere inden for UI-design?

gemini-1.5-pro ADVP
Har du nogensinde følt, at data er en blændende, forbløffende gåde?
gpt-4o-2024-11-20 NP
Data er overalt, men mange er stadig nonchalante over for deres potentiale!

gemini-1.5-pro ADVP 
Har du nogensinde følt, at marketing er en hvirvelvind  af algoritmer og automatisering?
gpt-4o-2024-11-20 SQ
Er din marketingstrategi målrettet eller bidrager den bare til støjen?

For at hjælpe med at visualisere, hvilke syntaktiske strukturer der foretrækkes af hvilken model, plotter vi også fordelingerne. Det viser, at substantiviske sætninger er den mest udbredte åbner, med verbale sætninger på en tæt andenplads.

Vi producerede også ordskyer for hver model om ordforrådsfordelingen, men at vise det hele ville være lidt for meget i dette blogindlæg. Vi deler ordskyen for de mindst og mest forskelligartede modeller her

Ordsky til o3-mini

Wordcloud til Gemini 2.0 Flash-Lite

Opgave 3: Evner til selvevaluering

Endelig vil vi gerne se, hvor gode modellerne er til at redigere opgaver. De specifikke opgaver og eksperimenter falder uden for rammerne af dette benchmark på grund af tidsbegrænsninger fra vores side, men en ting, der danner et vigtigt grundlag for dette, er LLM'ernes evne til at opdage overtrædelser af skriveinstruktioner.

Da vi programmatisk kunne vurdere, om modellerne fulgte instruktionerne, kan vi også sammenligne den sande vurdering med LLM'ens vurdering. LLM'er bruges i stigende grad som evaluatorer, mest i tilfælde, hvor kodebaserede evalueringer ikke er mulige. Men for at være gode til at redigere skal modellerne også vide, hvordan man spotter fejl, før man retter dem.

I dette korte afsnit viser vi, hvordan modellerne klarer denne opgave.

Dette afspejler resultater fra nyere forskning, især fra LLMBAR, et benchmark, der er designet specifikt til at teste, hvor godt LLM'er kan fungere som evaluatorer i opgaver, der følger instruktioner. Den skelner mellem output, der overfladisk set ser godt ud, og dem, der rent faktisk følger instruktionerne.

Det viste undersøgelsen:

Selv topmodeller som GPT-4 falder ofte for mere polerede, men forkerte resultater.
ChatGPT og andre populære modeller klarede sig dårligere end tilfældig chance på kontradiktoriske eksempler.
Promptstrategi er vigtig: Refleksionsevnen forbedres betydeligt, når modellerne får strukturerede evalueringsanvisninger med regler, målinger eller referenceoutput at sammenligne med.

Vores interne eksperimenter stemmer overens med disse indsigter.

Hvorfor kæmper LLM'erne med negative instruktioner og stilforskelle?

Negative begrænsninger er svære: Det er overraskende svært at fortælle en model, at den ikke skal gøre noget.

Et eksempel:"Undgå at hilse på læseren med 'Hejsa'... Undgå også at starte med 'Wow' eller 'Boom'."
LLM: "Woah, 14% af alle pc'er på verdensplan ..." → Ups.
Et eksempel:"Lad være med at bruge 'game-changer'."
‍LLM: "Empati kan være en game-changer." → Dobbelt oops.

Det er ikke bare en anekdotisk særhed. Nyere forskning, såsom studier af Truong et al. (2023) og Jang et al. (2022), undersøger specifikt, hvordan LLM'er håndterer negation og negerede prompter.

Deres resultater bekræfter, at modeller over hele linjen - fra GPT-arkitekturer til OPT - har store problemer med at forstå og handle korrekt på negative instruktioner. Måske er det mest kontraintuitivt, at denne forskning afslører et omvendt skaleringsfænomen for negation. Mens vi normalt forventer, at større modeller klarer sig bedre, fandt både Truong et al. og Jang et al. ud af, at større modeller ofte klarer sig dårligere end mindre i opgaver, der kræver forståelse af negation (som f.eks. at identificere, hvad noget ikke er, eller at generere et forkert svar).

Det tyder på, at det at øge modelstørrelsen ikke løser - og måske endda forværrer - problemet med at forstå "NOT". Det stemmer overens med vores benchmarkresultater, hvor vi observerede høje overtrædelsesprocenter for sortlisteinstruktioner på tværs af flere modeller. Det indikerer, at problemet stikker dybere end blot at overse et nøgleord; det handler om en grundlæggende behandling af den negative kommando.

Mangel på stilistisk mangfoldighed er et resultat af RLHF: Undersøgelsen af Kirk et al. (2024) viste, at modeller, der er finjusteret med Reinforcement Learning from Human Feedback (RLHF) - den proces, der i høj grad bruges til modeller som ChatGPT og Claude - viser væsentligt lavere EAD-scorer sammenlignet med modeller, der blot er finjusteret på eksempler.

Dette indikerer, at RLHF-modeller har en tendens til at bruge et smallere udvalg af ord og sætninger, især når de genererer flere mulige output for det samme input (lavere diversitet pr. input).

Konklusion

Vores benchmark, som er kontekstualiseret af nyere forskning, tegner et klarere billede af moderne LLM-kapaciteter og -begrænsninger inden for skrivning:

Det vigtigste at tage med:

LLM-speak er ægte: Overbrugte ord og mønstre skader autenticiteten.
Negative instruktioner og længdeinstruktioner er svære: Især når begrænsningerne er negative eller præcise.
Mangfoldigheden bliver ofret: RLHF øger generaliseringen, men reducerer påviseligt outputdiversiteten (mode collapse), både leksikalsk og strukturelt (Kirk et al.). SFT bevarer mere diversitet, men kan være mindre robust over for usete input.
Kompromiset mellem generalisering og mangfoldighed: Der synes at være en iboende spænding mellem at få modeller til at generalisere godt (RLHF's styrke) og få dem til at producere varierede output (SFT's styrke) ved hjælp af de nuværende finjusteringsmetoder (Kirk et al.).

Kort sagt er der ikke nogen klar vinder, som mestrer hver dimension af kreativ skrivning og redigering. Hvis du vil have modeller, der lyder mindre som AI, skal du tjekke Claude Sonnet 3.5. Hvis du vil have et mere varieret output, kan en lille model som Llama 3.1-8B være et godt valg (eller tjek en ikke-Instruct-model).

Men uanset hvad - glem ikke at lave jeres evalueringer, folkens!

Planlæg en demo

Azamat Omuraliev

AI-ingeniør hos Typetone

Del