Blog en PR
/
AI-content

WETT: Schrijven & redigeren Typetone LLM Benchmark

Azamat Omuraliev
-
4 april 2025
-
20 min

Waarvoor gebruik je ChatGPT, Claude of andere grote taalmodellen (LLM's)?

Als je bent zoals de meeste mensen, is een groot deel daarvan schrijven. Uit onderzoek blijkt zelfs dat maar liefst 62% van de ChatGPT-verzoeken schrijfgerelateerd zijn. Van het opstellen van e-mails en essays tot het genereren van copy en codedocumentatie, we vertrouwen op deze modellen om woorden aan elkaar te rijgen en willen dat ze daarbij onze instructies opvolgen.

(als je de volledige benchmark wilt zien voordat je verdergaat met deze blogpost, kun je hem hier vinden)

Voorbeelden van echte gesprekken met ChatGPT, uit onderzoek van AllenAI

Bij Typetone maken we gebruik van LLM's om content voor kleine en middelgrote bedrijven te automatiseren door in slechts enkele minuten een volledige maand aan socialemediaposts, blogartikelen en meer te genereren.

We hebben altijd gedacht dat met betere modellen ons product ook beter zou moeten worden. En de modellen zijn het afgelopen jaar inderdaad beter geworden! Alleen niet in de dingen die belangrijk waren voor onze AI-marketingagent Sarah.

Modellen lijken beter te worden in coderen, redeneren en wiskunde gerelateerde taken. Maar zelfs OpenAI geeft toe dat mensen vaak de voorkeur geven aan oudere modellen voor taken als Persoonlijk schrijven en Tekst bewerken.

Bestaande leaderboards (Chatbot Arena, SEAL, LLM Hallucination Index, SWE-bench, MMLU, Tau-bench) zijn sterk gericht op redeneren, kennis en het voltooien van agent taken, maar we waren verbaasd dat er maar weinig waren die zich richtten op schrijven, ondanks het feit dat dit de belangrijkste use case is voor een casual AI-gebruiker.

Zo realiseerden we ons dat we niet alleen kunnen vertrouwen op openbaar beschikbare benchmarks om het beste model voor onze use case te kiezen. Dus besloten we dat we onze eigen benchmark moesten maken en goede evaluaties moesten opzetten.

https://x.com/gdb/status/1733553161884127435

Hoe evalueert u het schrijven van LLM's (of mensen)?

Voordat we ingaan op waar modellen tekortschieten, is het de moeite waard om te verduidelijken hoe we schrijven eigenlijk evalueren.

Als we een mens zouden vragen iets voor ons te schrijven of te redigeren, hoe weten we dan of hij goed werk heeft geleverd? Dezelfde normen gelden voor LLM's en ze vallen uiteen in een paar kerndimensies:

1a. Schrijfinstructies volgen

Ditgaat over hoe goed het model zich houdt aan de instructies voor het schrijven van iets nieuws. Dit omvat dingen zoals binnen een bepaald aantal woorden blijven, bepaalde sleutelwoorden gebruiken (of vermijden), correct formatteren en voldoen aan toon- of stijlrichtlijnen.

Als je een freelancer zou vragen om een LinkedIn-post van 100 woorden te schrijven op een nonchalante toon zonder emoji's of uitroeptekens, dan zou je verwachten dat hij die briefing volgt. Hetzelfde geldt hier.

1b. Bewerkingsinstructies volgen

Nauwverwant hiermee is de test hoe goed modellen bestaande tekst kunnen bewerken volgens specifieke instructies, zoals het inkorten van een alinea, het veranderen van passieve in actieve stem of het verwijderen van jargon.

We hebben de bewerkingsspecifieke evaluatie uitgesloten van deze versie van de benchmark, maar bereiden ons erop voor door het vermogen van het model om instructieovertredingen in de tekst te herkennen te evalueren, wat een noodzakelijke voorwaarde is om bewerkingen in een tekst uit te voeren.

En nogmaals, we zouden hetzelfde verwachten van elke menselijke redacteur.

2. Verschillende structuur en stijl voor verschillende onderwerpen

Eensterke schrijver gebruikt niet dezelfde zinsbouw of woordenschat voor elk stukje content. Een van de grootste aanwijzingen dat iets machinaal gegenereerd is, is de herhaling van structuur: elke post beginnen met een vraag of steeds dezelfde zinsopbouw gebruiken.

Een goede evaluatie vraagt: past het model zijn stijl aan de prompt aan of valt het terug op veilige standaardinstellingen?

3. LLM-praat vermijden

Dezeis moeilijker vast te stellen. Zoals eerder vermeld, is herhaling een weggevertje.

Maar LLM-speak is het griezelige gevoel dat iets door een machine is geschreven, te formeel is, vol staat met algemene modewoorden of te hard probeert om inspirerend te klinken. Ironisch genoeg is dit moeilijk te vermijden voor zowel mensen als AI.

De meest gebruikelijke manier om LLM-spraak te evalueren is door te kijken naar het overgebruik van bepaalde woorden die typisch door LLM's worden gebruikt. De bovenstaande grafiek toont de prevalentie van een paar van dergelijke woorden in academische papers in de loop van de tijd, maar deze aanpak is niet 100% robuust omdat ander onderzoek suggereert dat mensen ook meer "delves" en "intricates" beginnen te gebruiken in normale spraak.

Wat iets "AI-achtig" laat klinken is een vage mix van toon, ritme, herhaling en frasering die nog steeds onderzocht wordt. Dus hoewel we het opnemen als een belangrijke kwaliteitsas, is het er een die een meer experimentele benadering vereist om te evalueren.

Welke modellen hebben we getest?

We hebben 18 goed presterende modellen getest van toonaangevende AI-laboratoria en leveranciers, waaronder GPT-4o, Claude 3, Gemini 1.5 en verschillende LLaMA-, Mistral- en Qwen-varianten. Elk model werd aangeroepen via zijn API met behulp van een gedeelde promptindeling en de antwoorden werden gescoord met behulp van een reeks geautomatiseerde evaluatiefuncties die waren afgestemd op elke beperking.

Geteste modellen (gegroepeerd per bedrijf/platform):

  • OpenAI (via de OpenAI API):
    • gpt-4o-2024-08-06 die we gpt-4o-stable noemen
    • gpt-4o-2024-11-20 die we gpt-4o-schrijven noemen
    • gpt-4o-mini
    • o3-mini
  • Antropisch (Claude):
    • claude-3-5-haiku-20241022
    • claude-3-5-sonnet-20241022
    • claude-3-7-sonnet-20250219
  • Google DeepMind (Gemini):
    • gemini-2.0-flash
    • gemini-2.0-flash-lite
    • gemini-1.5-flitser
    • gemini-1.5-pro
  • Meta (via Together API):
    • meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo
    • meta-llama/Llama-3.3-70B-Instru-Turbo
    • meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
  • Alibaba (Qwen, via Together API):
    • Qwen/Qwen2.5-7B-Instructie-Turbo
    • Qwen/Qwen2.5-72B-Instructie-Turbo
  • DeepSeek (via Together API):
    • deepseek-ai/DeepSeek-V3
  • Mistral (via Together API):
    • mistralai/Mistral-Klein-24B-Instructie-2501
    • We hadden ook de grotere Mistral-modellen willen benchmarken, maar werden beperkt door de beschikbaarheid in Together API.

Elk model werd bevraagd met hetzelfde instructie/gebruikersprompt-paar met een gestandaardiseerde temperatuurinstelling (meestal 0,7). De resulterende tekst werd vervolgens geëvalueerd met behulp van een taakspecifieke set regelgebaseerde functies (bijv. regex, string pattern matching of numeric parsing) om de naleving van de oorspronkelijke instructies te beoordelen.

Opdracht 1: Schrijfinstructie na

Overzicht van taken

Je moet verschillende schrijfinstructies volgen. Veel daarvan gaan over de content van de tekst, maar die laten we buiten beschouwing omdat ze moeilijk programmatisch te beoordelen zijn. In plaats daarvan richten we ons op stilistische en opmaakinstructies, omdat die eenvoudig te controleren zijn met regex in Python.

Hier volgt een overzicht van de schrijfinstructies en hoe de resultaten werden geëvalueerd:

  • zwarte lijst: Modellen kregen te horen dat ze bepaalde woorden niet mochten gebruiken. De test controleerde op de aanwezigheid van verboden termen zoals "geweldig" of "beste".
  • blacklist_phrase: Gelijkaardig aan blacklist, maar toegepast op volledige zinnen in plaats van individuele woorden.
  • opsommingstekens: Geëvalueerd of modellen opsommingstekens gebruikten of vermeden volgens de instructies (bijv. "Gebruik een lijst met opsommingstekens" vs. "Vermijd het gebruik van opsommingstekens").
  • hoofdletters: Instrueerde modellen om volledig in kleine letters, hoofdletters of titelhoofdletters te schrijven en controleerde of de spelling consistent was.
  • beknoptheid: Beperkte het aantal woorden per zin (bijv. maximaal 10 woorden). Elke zin werd beoordeeld op naleving.
  • datum: Getest of een opgegeven datumnotatie zoals "JJJJ-MM-DD" werd aangehouden. Data in uitvoer werden geparseerd en gecontroleerd.
  • emoji: Aanwezigheid of afwezigheid van emoji's beoordeeld, afhankelijk van de instructie.
  • begroeting: Gecontroleerd of modellen vermeden om te beginnen met een begroeting als "Hoi", "Hallo daar" of "Wow".
  • hashtag: Geëvalueerd of hashtags kleine letters en geen underscores bevatten (bijv. #electricbikes, niet #Electric_Bikes).
  • lengte: Vereist dat de uitvoer een exact aantal woorden bevat (bijv. "Je uitvoer moet precies 100 woorden bevatten.").
  • markdown: Zorgde ervoor dat modellen Markdown-syntaxis zoals *, ** en # vermeden als ze de opdracht kregen deze niet te gebruiken.
  • getallen: Beoordeeld of de numerieke opmaak de gespecificeerde duizendtallen en decimale scheidingstekens volgde (bijv. 1,000,00).
  • witte lijst: Vereiste opname van specifieke woorden (bijv. "Deze termen opnemen: energie, op afstand, maker")-gecontroleerd of ze allemaal aanwezig waren.

Taakconstructie en steekproefsgewijze prognose

Elke prompt die aan de modellen werd doorgegeven, werd samengesteld door een steekproef te nemen uit de lijst met taken die hierboven is opgesomd. De steekproef selecteerde willekeurig een mix van instructietypes zoals:

  • Emoji's gebruiken of vermijden
  • Schrijf in hoofdletters/kleine letters
  • Volg specifieke nummer-/datumopmaak
  • Bepaalde woorden of zinnen opnemen of vermijden
  • Gebruik of vermijd opsommingstekens
  • Beperk de zinslengte voor beknoptheid

Voor elke bemonsterde beperking werd een systeemprompt gegenereerd (bijv. "Gebruik geen emoji's") samen met een evaluatiefunctie om de naleving in de uitvoer van het model te controleren.

De gebruikersprompt - eenkort social media-onderwerp zoals "De voordelen van werken op afstand" of "Waarom AI-schrijftools overhyped zijn" - werd gekozen uit een pool van realistische content , die levensechte voorbeelden zijn van content die Sarah, de AI-marketingagent van Typetone, heeft bedacht.

Elk model kreeg dezelfde volledige prompt:

  • Een geheugensteuntje dat de stilistische en structurele regels definieert
  • Een gebruikersprompt met het content

Deze gecombineerde prompt werd naar elk model gestuurd via de respectievelijke API-wrapper.

Resultaten van schrijfinstructies

  • Op het eerste gezicht lijken de taken niet al te moeilijk voor de modellen. De begroetings- en datumopmaakopdrachten zijn erg gemakkelijk, waarbij alle modellen 100% scoren. Sommige andere categorieën zijn alleen moeilijk voor een paar modellen (hashtag, markdown, emoji, case), waarbij kleine modellen slecht presteren.
  • De echte uitdaging is om specifieke woorden en zinnen te vermijden en de zinnen onder een bepaalde lengte te houden. Geen enkel model kan in meer dan 90% van de gevallen "LLM-speak" woorden vermijden. Dit is prima als je zelf met het model aan het chatten bent, maar voor een productie-grade auto-gegenereerde content gaat dit niet op.
  • Beknoptheid is gemakkelijk voor o3-mini, wat geen verrassing is gezien zijn redeneercapaciteiten. Het heeft in wezen een heleboel extra tokens vergeleken met alle andere modellen om na te denken over hoe de tekst geschreven moet worden om de lengte van zinnen te plannen. Interessant genoeg presteren niet-redenerende Qwen-modellen ook erg goed op deze taak.
  • Als sommige van deze getallen vreemd laag lijken, dan is hier een voorbeeld van een behoorlijk flagrante overtreding van Mistral Small 3:
...rest van prompt...
Schrijf alle tekst in hoofdletters hoofdletters.
Gebruik emoji's in de tekst.
Gebruik geen van deze zinnen in je uitvoer: in vandaag's, to the next level, fast-paced, changing the game, the future of, here'is waarom, een wereld waar, de wereld van, de kracht vanniet alleen over, of je'bent
...rest van prompt...


WAT ALS UW BANK PRECIES WIST WAT U NODIG HEBT VOORDAT U ER ZELF OM VRAAGT? 

AI-gestuurde inzichten maken het duidelijk dat banken luisteren. Door nauwkeurige gegevens te analyseren, begrijpen banken de behoeften van klanten zonder opdringerig of opdringerig te zijn. Dit betekent dat je niet meer in de wacht hoeft te staan of herhaaldelijk moet uitleggen wat je nodig hebt. In plaats daarvan kun je een snelle en onbekommerde service verwachten die anticipeert op je behoeften.
AI verandert de klantenservice op manieren die je misschien niet eens opmerkt. Stel je voor dat je op een drukke maandag 15/05/2024 een bank binnenloopt  en begroet wordt met een levendige, persoonlijke ervaring. AI kan je transactiegeschiedenis, voorkeuren en zelfs je stemming analyseren om verhelderende diensten op maat aan te bieden. Geen generieke antwoorden of eindeloze wachtrijen meer. Banken gebruiken AI om problemen te voorspellen en op te lossen voordat ze zich voordoen.
- AI-gestuurde chatbots die 24/7 beschikbaar zijn .
- Gepersonaliseerd financieel advies op basis van je bestedingsgewoonten.
- Fraudedetectiesystemen die leren en zich aanpassen aan nieuwe bedreigingen.

Het resultaat? Een soepelere, efficiëntere bankervaring. AI gaat **niet alleen over** het automatiseren van processen; het gaat over het creëren van een naadloze, intuïtieve reis voor klanten. Banken gebruiken AI om enorme hoeveelheden gegevens te analyseren en inzichten te bieden die de kwaliteit van de dienstverlening verbeteren. Van het opsporen van fraude tot het geven van financieel advies, AI maakt bankieren nauwkeuriger en veiliger. 

Toch gaat heter niet om dat robots het overnemen; het gaat erom uw leven gemakkelijker te maken. Als u de volgende keer uw bank bezoekt, let dan op de subtiele maar belangrijke manieren waarop AI uw ervaring verbetert.

Opdracht 2: Diversiteit in stijl en woordenschat

Disclaimer: de volgende secties zijn technisch behoorlijk diepgaand; de toevallige lezer wordt aangeraden de volledige benchmarkresultaten hier te bekijken.

Evaluatiemethode

Met de tekst die geproduceerd werd bij het volgen van de schrijfinstructies uit de eerste taak, konden we deze output ook evalueren op stilistische en vocabulaire diversiteit.

Woordenschat diversiteit

Modellen hebben de neiging om zinnen te hergebruiken:

"Klaar om van writer's block af te komen? Klaar om je portemonnee te dumpen? Klaar om je technische carrière toekomstbestendig te maken?"

Dit meten is vrij eenvoudig. Je hoeft alleen maar te controleren of er bepaalde woorden (unigrammen) of woordparen (bigrammen) zijn die te veel worden gebruikt door een model.

Meting: we gebruikten Verwachting Aangepast Onderscheid unigrammen en bigrammen (EAD) op de eerste zin. Hogere EAD = rijkere woordenschat.

Syntactische diversiteit

Maar zelfs zinnen die er anders uitzien, zijn vaak gebaseerd op vergelijkbare structuren en kunnen repetitief gaan klinken.

"Een sterke..." / "De perfecte... vinden" / "Geld besparen..." → [Gerund Zin] ... maar het ...

Dit is moeilijker te meten met een token lookup. Deze zinnen lijken niet op elkaar in welke woorden ze gebruiken, maar in hoe ze zijn opgebouwd.

Meting: we hebben zinnen geparseerd met Stanford CoreNLP om te onderzoeken hoe we een afhankelijkheidsparsboom krijgen. Een parse tree is een structuur die er zo uitziet en die de structuur van een zin uitlegt in termen van zinnen en hun syntactische categorieën. Het onderzoeken van de hele boom is wat ingewikkeld, maar we zien dat de eerste paar woorden in de zin de grootste indruk maken op de diversiteit als je meerdere inhouden tegelijk ziet.

Daarom meten we syntactische diversiteit als de entropie van eerste zinsdeelcategorieën op het hoogste niveau over alle eerste zinnen van teksten die door de LLM zijn geproduceerd.

Zo ziet een parse tree van afhankelijkheden eruit.

Stijldiversiteit resultaten

  • Er is geen duidelijke winnaar die hoog scoort op zowel woordenschat als syntactische diversiteit. o3-mini heeft de meest diverse woordenschat, terwijl Gemini 1.5 Pro de meest gevarieerde syntaxisstructuur gebruikt in zijn tekst.
  • Maar er zijn een paar modellen die mooi in het midden van dit Pareto front zitten. De voor schrijven geoptimaliseerde versie van GPT, Sonnet 3.5 en de kleinste Llama-versie lijken goed te scoren op beide statistieken.
  • Hier zijn enkele illustratieve voorbeelden die de uitvoer van Gemini en GPT tonen op dezelfde prompts, met de hoogste syntactische categorie weergegeven per zin.
gemini-1.5-pro ADVP
Ooit het gevoel gehad dat UI-ontwerp een stressvolle jongleertruc is?
gpt-4o-2024-11-20 ADJP 
Klaar om te schitteren in UI-ontwerp?

gemini-1.5-pro ADVP
Ooit het gevoel gehad dat gegevens een duizelingwekkend, verpletterend enigma zijn?
gpt-4o-2024-11-20 NP
Gegevens zijn overal, maar velen blijven nonchalant over de mogelijkheden ervan!

gemini-1.5-pro ADVP 
Ooit het gevoel gehad dat marketing een wervelwind van algoritmen en automatiseringis ?
gpt-4o-2024-11-20 SQ
Is uw marketingstrategie doelgericht of draagt het alleen maar bij aan de ruis?
  • Om te visualiseren welke syntactische structuren door welk model worden geprefereerd, zetten we ook de verdelingen uit. Hieruit blijkt dat naamwoordelijke zinnen de meest voorkomende opener zijn, met werkwoordelijke zinnen op een goede tweede plaats.
  • We hebben ook woordwolken gemaakt voor elk model over de woordenschatverdeling, maar het zou een beetje veel worden in deze blogpost om alles te laten zien. We delen de woordenwolk voor de minst en meest diverse modellen hier

Wordcloud voor o3-mini

Wordcloud voor Gemini 2.0 Flash-Lite

Taak 3: Zelfevaluatie capaciteiten

Tot slot willen we kijken hoe goed de modellen zijn in het bewerken van taken. De specifieke taken en experimenten vallen buiten het bereik van deze benchmark vanwege tijdsbeperkingen aan onze kant, maar één ding dat hiervoor een belangrijke basis vormt, is de capaciteit van LLM's om schendingen van schrijfinstructies te detecteren.

Omdat we programmatisch konden beoordelen of de modellen de instructies volgden, kunnen we ook de echte beoordeling vergelijken met de beoordeling van de LLM. LLM's worden steeds vaker gebruikt als beoordelaars, meestal voor gevallen waarin evaluaties op basis van code niet haalbaar zijn. Maar om goed te kunnen redigeren moeten de modellen ook weten hoe ze fouten kunnen herkennen voordat ze deze corrigeren.

In deze korte paragraaf laten we zien hoe de modellen presteren op deze taak.

Dit weerspiegelt bevindingen in recent onderzoek, met name van LLMBAR, een benchmark die speciaal is ontworpen om te testen hoe goed LLM's kunnen optreden als beoordelaars in instructie-volgtaken. Er wordt onderscheid gemaakt tussen uitvoer die er oppervlakkig gezien goed uitziet en uitvoer die de instructies daadwerkelijk volgt.

Uit het onderzoek bleek dat:

  • Zelfs topmodellen als GPT-4 vallen vaak voor meer gepolijste maar onjuiste outputs.
  • ChatGPT en andere populaire modellen presteerden slechter dan willekeurig toeval op tegenstrijdige voorbeelden.
  • Prompting strategie is belangrijk: reflectieprestaties verbeteren aanzienlijk wanneer modellen gestructureerde evaluatieprompts krijgen met regels, metrieken of referentie-uitvoer om mee te vergelijken.

Onze interne experimenten komen overeen met deze inzichten.

Waarom worstelen LLM's met negatieve instructies en stijldiversiteit?

Negatieve beperkingen zijn moeilijk: Een model vertellen iets niet te doen is verrassend moeilijk.

  • Voorbeeld: "Vermijd om de lezer te begroeten met 'Hé daar'.... Vermijd ook om te beginnen met 'Wow' of 'Boom'."
    LLM
    : "Woah, 14% van de wereldwijd verscheepte pc's..." → Oeps.
  • Voorbeeld: "Gebruik 'game-changer' niet."
    ‍LLM: "Empathie kan een game-changer zijn." → Dubbele oeps.

Dit is niet alleen een anekdotische gril. Recent onderzoek, zoals studies van Truong et al. (2023) en Jang et al. (2022), onderzoekt specifiek hoe LLM's omgaan met ontkenning en ontkende prompts.

Hun bevindingen bevestigen dat modellen over de hele linie - van GPT-achtige architecturen tot OPT - aanzienlijk worstelen met het begrijpen van en correct handelen naar aanleiding van negatieve instructies. Misschien wel het meest contra-intuïtief onthult dit onderzoek een omgekeerd schalingsfenomeen voor negatie. Hoewel we meestal verwachten dat grotere modellen beter presteren, ontdekten zowel Truong et al. als Jang et al. dat bij taken die begrip van negatie vereisen (zoals identificeren wat iets niet is of een onjuist antwoord genereren), grotere modellen vaak slechter presteren dan kleinere.

Dit suggereert dat het simpelweg vergroten van het model het probleem van het begrijpen van "NOT" niet oplost - en misschien zelfs verergert. Dit komt overeen met onze benchmarkbevindingen waar we hoge overtredingspercentages voor blacklistinstructies in verschillende modellen hebben waargenomen. Het geeft aan dat het probleem dieper gaat dan alleen het missen van een sleutelwoord; het gaat om het fundamenteel verwerken van het negatieve commando.

Gebrek aan stilistische diversiteit is een artefact van RLHF: Uit het onderzoek van Kirk et al. (2024) bleek dat modellen die zijn verfijnd met Reinforcement Learning from Human Feedback (RLHF) - het proces dat veel wordt gebruikt voor modellen als ChatGPT en Claude - aanzienlijk lagere EAD-scores laten zien in vergelijking met modellen die alleen zijn verfijnd op basis van voorbeelden.

Dit geeft aan dat RLHF modellen de neiging hebben om een beperkter scala aan woorden en zinnen te gebruiken, vooral wanneer ze meerdere mogelijke outputs genereren voor dezelfde input (lagere per-input diversiteit).

Conclusie

Onze benchmark, gecontextualiseerd door recent onderzoek, schetst een duidelijker beeld van de mogelijkheden en beperkingen van de moderne LLM op het gebied van schrijven:

Belangrijkste opmerkingen:

  • LLM-taal is echt: Te veel gebruikte woorden en patronen schaden de authenticiteit.
  • Negatieve en lengte-instructies zijn moeilijk: Vooral als de beperkingen negatief of precies zijn.
  • Diversiteit wordt opgeofferd: RLHF verhoogt weliswaar de generalisatie, maar vermindert aantoonbaar de uitvoerdiversiteit (mode collapse), zowel lexicaal als structureel (Kirk et al.). SFT behoudt meer diversiteit, maar is mogelijk minder robuust bij ongeziene invoer.
  • De afweging generalisatie-diversiteit: Er lijkt een inherente spanning te bestaan tussen modellen goed laten generaliseren (de kracht van RLHF) en ze gevarieerde output laten produceren (de kracht van SFT) met de huidige fine-tuning methoden (Kirk et al.).

Kortom, er is geen duidelijke winnaar die elke dimensie van creatief schrijven en bewerken beheerst. Als je modellen wilt die minder als AI klinken, kijk dan eens naar Claude Sonnet 3.5. Als je meer gevarieerde outputs wilt, is een klein model als Llama 3.1-8B misschien een goede keuze (of kijk eens naar een model dat niet van Instruct is).

Maar hoe dan ook - vergeet niet je evaluaties te doen, mensen!

Een demo plannen
Azamat Omuraliev

AI ingenieur bij Typetone

Plan een demo en huur risicoloos een digitale werker in
Een demo plannen