Hvad bruger du ChatGPT, Claude eller andre store sprogmodeller (LLM'er) til?
Hvis du er som de fleste, handler en stor del af det om at skrive. Faktisk viser undersøgelser, at svimlende 62% af ChatGPT-anmodningerne er skriverelaterede. Fra udarbejdelse af e-mails og essays til generering af copy og kodedokumentation er vi afhængige af, at disse modeller sætter ord sammen, og at de følger vores instruktioner, når de gør det.
(hvis du vil se det fulde benchmark, før du fortsætter med blogindlægget, kan du finde det her)
Hos Typetone udnytter vi LLM'er til at automatisere indholdsmarkedsføring for små og mellemstore virksomheder - og genererer en hel måneds indlæg på sociale medier, blogartikler og meget mere på få minutter.
Vi har altid tænkt, at med bedre modeller skulle vores produkt også blive bedre. Og modellerne blev faktisk bedre sidste år! Bare ikke på de ting, der var vigtige for vores AI-marketingagent Sarah.
Modellerne ser ud til at blive bedre til kodning, ræsonnement og matematikrelaterede opgaver. Men selv OpenAI indrømmer, at folk ofte foretrækker ældre modeller til opgaver som personlig skrivning og redigering af tekst.
Eksisterende ranglister (Chatbot Arena, SEAL, LLM Hallucination Index, SWE-bench, MMLU, Tau-bench) fokuserer i høj grad på ræsonnement, viden og agentisk opgaveløsning, men vi var overraskede over at finde få med fokus på skrivning, på trods af at dette er den vigtigste brugssag for en tilfældig AI-bruger.
Det var sådan, vi indså, at vi ikke kun kan stole på offentligt tilgængelige benchmarks for at vælge den bedste model til vores brugssag. Så vi besluttede, at vi var nødt til at lave vores egen benchmark og sætte ordentlige evalueringer op.
Før vi dykker ned i, hvor modellerne kommer til kort, er det værd at afklare, hvordan vi overhovedet evaluerer skrivning.
Hvis vi bad et menneske om at skrive eller redigere noget for os, hvordan ville vi så vide, om de gjorde et godt stykke arbejde? De samme standarder gælder for LLM'er - og de kan opdeles i nogle få kernedimensioner:
1a. Følger skriveinstruktioner
Dettehandler om, hvor godt modellen overholder instruktionerne for at skrive noget nyt. Det omfatter ting som at holde sig inden for et givet antal ord, bruge (eller undgå) bestemte nøgleord, formatere korrekt og matche retningslinjer for tone eller stil.
Hvis du bad en freelancer om at skrive et LinkedIn-indlæg på 100 ord i en afslappet tone uden emojis eller udråbstegn, ville du forvente, at de fulgte den briefing. Det samme gælder her.
1b. Følg redigeringsinstruktioner
Nærtbeslægtet tester dette, hvor godt modeller kan redigere eksisterende tekst i henhold til specifikke instruktioner - som at forkorte et afsnit, ændre passiv stemme til aktiv eller fjerne jargon.
Vi udelukkede den redigeringsspecifikke evaluering fra denne version af benchmarket, men forberedte os på den ved at evaluere modellens evne til at genkende instruktionsbrud i teksten, hvilket er en nødvendig forudsætning for at kunne redigere i en tekst.
Og igen, vi ville forvente det samme af enhver menneskelig redaktør.
2. Varierende struktur og stil på tværs af emner
Enstærk skribent bruger ikke den samme sætningsstruktur eller det samme ordforråd til hvert stykke indhold. Et af de største tegn på, at noget er maskingenereret, er gentagelsen af strukturen: at starte hvert indlæg med et spørgsmål eller at bruge den samme sætningsskabelon igen og igen.
En god evaluering spørger: Tilpasser modellen sin stil til opfordringen, eller falder den tilbage på sikre standardindstillinger?
3. Undgå at tale LLM-sprog
Denneer sværere at sætte fingeren på. Som tidligere nævnt er gentagelser et tegn.
Men LLM-speak er den uhyggelige fornemmelse af, at noget er skrevet af en maskine - alt for formelt, fyldt med generiske buzzwords eller i et alt for ihærdigt forsøg på at lyde inspirerende. Ironisk nok er det svært at undgå for både mennesker og AI.
Den mest almindelige måde at evaluere LLM-sprog på er at tjekke overforbrug af bestemte ord, der typisk bruges af LLM'er. Grafen ovenfor viser udbredelsen af nogle få af disse ord i akademiske artikler over tid, men denne tilgang er ikke 100% robust, fordi anden forskning tyder på, at folk også er begyndt at bruge flere "delves" og "intricates" i normal tale.
Hvad der får noget til at lyde "AI-agtigt" er en uklar blanding af tone, rytme, gentagelse og frasering, som der stadig forskes i. Så selv om vi inkluderer det som en vigtig kvalitetsakse, er det en, der kræver en mere eksperimentel tilgang til evaluering.
Vi testede 18 højtydende modeller fra førende AI-laboratorier og -udbydere, herunder GPT-4o, Claude 3, Gemini 1.5 og forskellige LLaMA-, Mistral- og Qwen-varianter. Hver model blev påkaldt via sin respektive API ved hjælp af et fælles promptformat, og svarene blev scoret ved hjælp af en række automatiserede evalueringsfunktioner, der var skræddersyet til hver begrænsning.
gpt-4o-2024-08-06
som vi kalder gpt-4o-stable.gpt-4o-2024-11-20
som vi kalder gpt-4o-writinggpt-4o-mini
o3-mini
claude-3-5-haiku-20241022
claude-3-5-sonnet-20241022
claude-3-7-sonnet-20250219
gemini-2.0-flash
gemini-2.0-flash-lite
gemini-1.5-flash
gemini-1.5-pro
meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo
meta-llama/Llama-3.3-70B-Instruct-Turbo
meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Qwen/Qwen2.5-7B-Instruktions-Turbo
Qwen/Qwen2.5-72B-Instruktions-Turbo
deepseek-ai/DeepSeek-V3
mistralai/Mistral-Small-24B-Instruct-2501
Hver model blev forespurgt med det samme par af instruktioner/brugeropfordringer ved hjælp af en standardiseret temperaturindstilling (typisk 0,7). Den resulterende tekst blev derefter evalueret ved hjælp af et opgavespecifikt sæt regelbaserede funktioner (f.eks. regex, string pattern matching eller numerisk parsing) for at vurdere overholdelsen af de oprindelige instruktioner.
Der er en række forskellige skriveinstruktioner, der skal følges. Mange af dem handler om tekstens indhold, men dem lader vi ligge, da de er svære at vurdere programmatisk. I stedet fokuserer vi på stilistiske og formateringsmæssige instruktioner, da disse er enkle at kontrollere med regex i Python.
Her er en oversigt over skriveinstruktioner, og hvordan output blev evalueret:
Hver besked, der skulle sendes til modellerne, blev bygget ved at tage en stikprøve fra listen over opgaver ovenfor. Prøveudtagningen valgte tilfældigt en blanding af instruktionstyper som f.eks:
For hver af de udvalgte begrænsninger blev der genereret en systemprompt (f.eks. "Brug ikke emojis") sammen med en evalueringsfunktion til at kontrollere overholdelse i modellens output.
Brugeropfordringen - etkort socialt medieemne som "Fordelene ved fjernarbejde" eller "Hvorfor AI-skriveværktøjer er overhypede" - blev udvalgt fra en pulje af realistiske indholdsidéer, som er eksempler på indhold fra det virkelige liv, som Sarah, Typetones AI-marketingagent, kom med.
Hver model fik den samme fulde prompt:
Denne kombinerede prompt blev sendt til hver model via dens respektive API-wrapper.
...resten af prompte...
Skriv hele teksten i store store bogstaver.
Brug emojis i teksten.
Brug ikke nogen af af disse sætninger i dit output: i i dag's, til det næste niveau, tempofyldt, ændre spillet, fremtiden for, her'er hvorfor, en verden hvor, verden af, kraften afikke kun handler om, om duer
...resten af prompten...
HVAD NU, HVIS DIN BANK VIDSTE PRÆCIS, HVAD DU HAVDE BRUG FOR, FØR DU OVERHOVEDET HAVDE SPURGT?
AI-drevne indsigter gør det tydeligt, at bankerne lytter. Ved at analysere præcise data forstår bankerne kundernes behov uden at være indlysende eller påtrængende. Det betyder, at du ikke længere skal vente i kø eller forklare dine behov gentagne gange. I stedet kan du forvente en hurtig og ubesværet service, der forudser dine behov.
AI forandrer kundeservice på måder, du måske ikke engang lægger mærke til. Forestil dig at gå ind i en bank på en travl mandag den 15.05.2024 og blive mødt med en livlig, personlig oplevelse. AI kan analysere din transaktionshistorik, dine præferencer og endda dit humør for at levere oplysende, skræddersyede tjenester. Ikke flere generiske svar eller endeløse køer. Bankerne bruger AI til at forudsige og løse problemer, før de opstår.
- AI-drevne chatbots tilgængelige 24/7.
- Personlig økonomisk rådgivning baseret på dine forbrugsvaner.
- Systemer til afsløring af svindel, der lærer og tilpasser sig nye trusler.
Hvad er resultatet? En smidigere og mere effektiv bankoplevelse. AI handler **ikke bare** om at automatisere processer; det handler om at skabe en problemfri, intuitiv rejse for kunderne. Banker bruger AI til at analysere store mængder data og give indsigt, der forbedrer servicekvaliteten. Fra at opdage svindel til at tilbyde finansiel rådgivning gør AI bankvirksomhed mere præcis og sikker.
Men det handler ikke om, at robotterne skal tage over; det handler om at gøre dit liv lettere. Næste gang du besøger din bank, så læg mærke til de subtile, men betydningsfulde måder, AI forbedrer din oplevelse på.
Ansvarsfraskrivelse: De næste afsnit er ret teknisk dybdegående; den almindelige læser anbefales at tjekke de fulde benchmark-resultater her.
Med den tekst, der blev produceret ved at følge skriveinstruktionerne fra den første opgave, kunne vi også evaluere dette output på stilistisk og ordforrådsmæssig mangfoldighed.
Mangfoldighed i ordforråd
Modeller har en tendens til at genbruge sætningsstartere:
"Klar til at droppe skriveblokeringen? Klar til at droppe din tegnebog? Klar til at fremtidssikre din tech-karriere?"
Det er ret nemt at måle dette. Man skal bare tjekke, om der er bestemte ord (unigrammer) eller ordpar (bigrammer), der bliver brugt for meget af en model.
Måling: Vi brugte Expectation-Adjusted Distinct unigrams and bigrams (EAD) på den første sætning. Højere EAD = rigere ordforråd.
Syntaktisk mangfoldighed
Men selv sætninger, der ser forskellige ud, er ofte baseret på lignende strukturer og kan begynde at lyde ensformige.
"At skabe en stærk..." / "At finde den perfekte..." / "At spare penge..." → [Gerundium-sætning] ... men det ...
Det er sværere at måle med et token-opslag. Disse sætninger ligner ikke hinanden i forhold til, hvilke ord de bruger, men i forhold til, hvordan de er konstrueret.
Måling: Vi analyserede sætninger ved hjælp af Stanford CoreNLP for at undersøge og få et afhængighedsparse-træ. Et parsetræ er en struktur, der ser sådan ud, og det forklarer en sætnings struktur i form af fraser og deres syntaktiske kategorier. Det er lidt kompliceret at undersøge hele træet, men vi kan se, at de første par ord i sætningen gør størst indtryk på mangfoldigheden, når man ser flere indhold på samme tid.
Så vi måler syntaktisk mangfoldighed som entropien af første sætnings kategorier på øverste niveau på tværs af alle første sætninger i tekster produceret af LLM.
gemini-1.5-pro ADVP
Har du nogensinde følt, at UI-design er en stressende jonglering?
gpt-4o-2024-11-20 ADJP
Klar til at brillere inden for UI-design?
gemini-1.5-pro ADVP
Har du nogensinde følt, at data er en blændende, forbløffende gåde?
gpt-4o-2024-11-20 NP
Data er overalt, men mange er stadig nonchalante over for deres potentiale!
gemini-1.5-pro ADVP
Har du nogensinde følt, at marketing er en hvirvelvind af algoritmer og automatisering?
gpt-4o-2024-11-20 SQ
Er din marketingstrategi målrettet eller bidrager den bare til støjen?
Ordsky til o3-mini
Wordcloud til Gemini 2.0 Flash-Lite
Endelig vil vi gerne se, hvor gode modellerne er til at redigere opgaver. De specifikke opgaver og eksperimenter falder uden for rammerne af dette benchmark på grund af tidsbegrænsninger fra vores side, men en ting, der danner et vigtigt grundlag for dette, er LLM'ernes evne til at opdage overtrædelser af skriveinstruktioner.
Da vi programmatisk kunne vurdere, om modellerne fulgte instruktionerne, kan vi også sammenligne den sande vurdering med LLM'ens vurdering. LLM'er bruges i stigende grad som evaluatorer, mest i tilfælde, hvor kodebaserede evalueringer ikke er mulige. Men for at være gode til at redigere skal modellerne også vide, hvordan man spotter fejl, før man retter dem.
I dette korte afsnit viser vi, hvordan modellerne klarer denne opgave.
Dette afspejler resultater fra nyere forskning, især fra LLMBAR, et benchmark, der er designet specifikt til at teste, hvor godt LLM'er kan fungere som evaluatorer i opgaver, der følger instruktioner. Den skelner mellem output, der overfladisk set ser godt ud, og dem, der rent faktisk følger instruktionerne.
Det viste undersøgelsen:
Vores interne eksperimenter stemmer overens med disse indsigter.
Negative begrænsninger er svære: Det er overraskende svært at fortælle en model, at den ikke skal gøre noget.
Det er ikke bare en anekdotisk særhed. Nyere forskning, såsom studier af Truong et al. (2023) og Jang et al. (2022), undersøger specifikt, hvordan LLM'er håndterer negation og negerede prompter.
Deres resultater bekræfter, at modeller over hele linjen - fra GPT-arkitekturer til OPT - har store problemer med at forstå og handle korrekt på negative instruktioner. Måske er det mest kontraintuitivt, at denne forskning afslører et omvendt skaleringsfænomen for negation. Mens vi normalt forventer, at større modeller klarer sig bedre, fandt både Truong et al. og Jang et al. ud af, at større modeller ofte klarer sig dårligere end mindre i opgaver, der kræver forståelse af negation (som f.eks. at identificere, hvad noget ikke er, eller at generere et forkert svar).
Det tyder på, at det at øge modelstørrelsen ikke løser - og måske endda forværrer - problemet med at forstå "NOT". Det stemmer overens med vores benchmarkresultater, hvor vi observerede høje overtrædelsesprocenter for sortlisteinstruktioner på tværs af flere modeller. Det indikerer, at problemet stikker dybere end blot at overse et nøgleord; det handler om en grundlæggende behandling af den negative kommando.
Mangel på stilistisk mangfoldighed er et resultat af RLHF: Undersøgelsen af Kirk et al. (2024) viste, at modeller, der er finjusteret med Reinforcement Learning from Human Feedback (RLHF) - den proces, der i høj grad bruges til modeller som ChatGPT og Claude - viser væsentligt lavere EAD-scorer sammenlignet med modeller, der blot er finjusteret på eksempler.
Dette indikerer, at RLHF-modeller har en tendens til at bruge et smallere udvalg af ord og sætninger, især når de genererer flere mulige output for det samme input (lavere diversitet pr. input).
Vores benchmark, som er kontekstualiseret af nyere forskning, tegner et klarere billede af moderne LLM-kapaciteter og -begrænsninger inden for skrivning:
Det vigtigste at tage med:
Kort sagt er der ikke nogen klar vinder, som mestrer hver dimension af kreativ skrivning og redigering. Hvis du vil have modeller, der lyder mindre som AI, skal du tjekke Claude Sonnet 3.5. Hvis du vil have et mere varieret output, kan en lille model som Llama 3.1-8B være et godt valg (eller tjek en ikke-Instruct-model).
Men uanset hvad - glem ikke at lave jeres evalueringer, folkens!