Contenu de l'IA

WETT : Rédaction et édition Typetone LLM Benchmark

Azamat Omuraliev

4 avril 2025

20 min

Pourquoi utilisez-vous ChatGPT, Claude ou d'autres grands modèles linguistiques (LLM) ?

Si vous êtes comme la plupart des gens, une grande partie de ce travail consiste à écrire. En fait, les recherches montrent qu' un pourcentage stupéfiant de 62 % des demandes de ChatGPT sont liées à l'écriture. Qu'il s'agisse de rédiger des courriels ou des essais, de produire des copy marketing ou de la documentation sur le code, nous comptons sur ces modèles pour enchaîner les mots, et nous voulons qu'ils suivent nos instructions pour ce faire.

(si vous voulez voir le benchmark complet avant de continuer avec le blogpost, trouvez-le ici)

‍

Exemples de conversations réelles avec ChatGPT, issus de la recherche AllenAI

Chez Typetone, nous utilisons les LLM pour automatiser le marketing de contenu pour les petites et moyennes entreprises, en générant en quelques minutes un mois complet de posts sur les médias sociaux, d'articles de blog, etc.

Nous avons toujours pensé qu'avec de meilleurs modèles, nos produits devraient également s'améliorer. Et les modèles se sont effectivement améliorés l'année dernière ! Mais pas dans les domaines qui étaient importants pour notre agent marketing Sarah.

Les modèles semblent s'améliorer pour les tâches de codage, de raisonnement et de mathématiques. Mais l 'OpenAI elle-même admet que les gens préfèrent souvent les anciens modèles pour des tâches telles que l'écriture personnelle et l'édition de texte.

Les classements existants (Chatbot Arena, SEAL, LLM Hallucination Index, SWE-bench, MMLU, Tau-bench) se concentrent fortement sur le raisonnement, la connaissance et l'accomplissement de tâches agentiques, mais nous avons été surpris d'en trouver peu qui se concentrent sur l'écriture, malgré le fait que ce soit le cas d'utilisation n°1 pour un utilisateur occasionnel de l'IA.

C'est ainsi que nous avons réalisé que nous ne pouvions pas nous fier uniquement aux benchmarks publiquement disponibles pour choisir le meilleur modèle pour notre cas d'utilisation. Nous avons donc décidé de créer notre propre benchmark et de mettre en place des évaluations appropriées.

https://x.com/gdb/status/1733553161884127435

Comment évaluez-vous les écrits des LLM (ou des humains) ?

Avant d'examiner les lacunes des modèles, il convient de clarifier la manière dont nous évaluons les écrits.

Si nous demandions à un être humain d'écrire ou d'éditer quelque chose pour nous, comment saurions-nous s'il a fait du bon travail ? Les mêmes normes s'appliquent aux LLM, et elles se décomposent en quelques dimensions essentielles :

1a. Suivre les instructions d'écriture

‍Ils'agit de savoir dans quelle mesure le modèle respecte les instructions relatives à la rédaction d'un nouveau texte. Il s'agit notamment de respecter un nombre de mots donné, d'utiliser (ou d'éviter) certains mots-clés, de formater correctement et de respecter le ton ou les directives stylistiques.

Si vous demandez à un freelance de rédiger un billet LinkedIn de 100 mots sur un ton décontracté, sans emojis ni points d'exclamation, vous vous attendez à ce qu'il respecte cette consigne. C'est la même chose ici.

1b. Suivre les instructions d'édition

‍Clairementlié, ce test évalue la capacité des modèles à modifier un texte existant selon des instructions spécifiques, comme raccourcir un paragraphe, passer de la voix passive à la voix active ou supprimer le jargon.

Nous avons exclu l'évaluation spécifique à l'édition de cette version du benchmark, mais nous la préparons en évaluant la capacité du modèle à reconnaître les violations d'instructions dans le texte, ce qui est une condition préalable nécessaire à l'édition d'un texte.

Et nous attendons la même chose de n'importe quel rédacteur humain.

2. Structure et style variables d'un sujet à l'autre

‍Unbon rédacteur n'utilise pas la même structure de phrase ou le même vocabulaire pour chaque contenu. L'un des principaux indices d'un contenu généré par une machine est la répétition de la structure : commencer chaque article par une question ou utiliser le même modèle de phrase à plusieurs reprises.

Une bonne évaluation pose la question suivante : le modèle adapte-t-il son style à l'invite ou se contente-t-il de valeurs sûres ?

3. Éviter le jargon du LLM

‍Ceciest plus difficile à cerner. Comme nous l'avons déjà mentionné, la répétition est un indice.

Mais le langage LLM, c'est le sentiment étrange que quelque chose a été écrit par une machine - trop formel, bourré de mots génériques à la mode, ou essayant trop fort d'avoir l'air d'une source d'inspiration. Ironiquement, il est difficile d'éviter cela, tant pour les humains que pour l'IA.

La façon la plus courante d'évaluer le langage des LLM est de vérifier la surutilisation de certains mots typiquement utilisés par les LLM. Le graphique ci-dessus montre la prévalence de quelques mots de ce type dans les articles universitaires au fil du temps, mais cette approche n'est pas fiable à 100 % car d 'autres recherches suggèrent que les gens commencent également à utiliser davantage de "delves" et d'"intricates" dans leur discours normal.

Ce qui rend un son "IA" est un mélange flou de tonalité, de rythme, de répétition et de phrasé qui fait encore l'objet de recherches. C'est pourquoi, bien que nous l'incluions comme un axe de qualité clé, son évaluation nécessite une approche plus expérimentale.

Quels modèles avons-nous testés ?

Nous avons testé 18 modèles performants provenant de laboratoires et de fournisseurs d'IA de premier plan, notamment GPT-4o, Claude 3, Gemini 1.5 et diverses variantes de LLaMA, Mistral et Qwen. Chaque modèle a été invoqué via son API respective en utilisant un format d'invite partagé, et les réponses ont été notées à l'aide d'une suite de fonctions d'évaluation automatisées adaptées à chaque contrainte.

Modèles testés (regroupés par société/plateforme) :

OpenAI (via l'API OpenAI) :
- gpt-4o-2024-08-06 que nous surnommons gpt-4o-stable
- gpt-4o-2024-11-20 que nous surnommons gpt-4o-writing
- gpt-4o-mini
- o3-mini
Anthropique (Claude):
- claude-3-5-haiku-20241022
- claude-3-5-sonnet-20241022
- claude-3-7-sonnet-20250219
Google DeepMind (Gemini):
- gemini-2.0-flash
- gemini-2.0-flash-lite
- gemini-1.5-flash
- gemini-1.5-pro
Meta (via l'API Together):
- meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo
- meta-llama/Llama-3.3-70B-Instruire-Turbo
- meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Alibaba (Qwen, via l'API Together):
- Qwen/Qwen2.5-7B-Instruct-Turbo
- Qwen/Qwen2.5-72B-Instruct-Turbo
DeepSeek (via l'API Together):
- deepseek-ai/DeepSeek-V3
Mistral (via l'API Together):
- mistralai/Mistral-Petit-24B-Instruction-2501
- Nous aurions également voulu comparer les modèles Mistral plus grands, mais nous avons été limités par la disponibilité de l'API Together.

Chaque modèle a été interrogé avec la même paire d'instructions et d'invites utilisateur en utilisant un réglage de température normalisé (généralement 0,7). Le texte résultant a ensuite été évalué à l'aide d'un ensemble de fonctions basées sur des règles spécifiques à la tâche (par exemple, regex, correspondance de chaînes de caractères ou analyse numérique) afin d'évaluer la conformité avec les instructions d'origine.

Tâche 1 : Rédiger l'instruction suivante

Aperçu des tâches

Il y a toute une série d'instructions de rédaction à suivre. Beaucoup d'entre elles concernent le contenu du texte, mais nous les laissons de côté car elles sont difficiles à évaluer de manière programmatique. Nous nous concentrons plutôt sur les instructions stylistiques et de mise en forme, qui sont faciles à vérifier avec des expressions rationnelles en Python.

Voici un aperçu des instructions de rédaction et de la manière dont les résultats ont été évalués :

liste noire: Les mannequins devaient s'abstenir d'utiliser certains mots. Le test a vérifié la présence de termes interdits tels que "incroyable" ou "meilleur".
blacklist_phrase: similaire à blacklist, mais appliqué à des phrases complètes plutôt qu'à des mots individuels.
puces: Évaluation de l'utilisation ou de l'absence de puces selon les instructions (par exemple, "Utilisez une liste à puces" ou "Évitez d'utiliser des puces").
minuscules et majuscules: Demander aux modèles d'écrire entièrement en minuscules, en majuscules ou en majuscules de titre, et vérifier la cohérence de la casse.
concision: Limitation du nombre de mots par phrase (par exemple, 10 mots maximum). La conformité de chaque phrase a été évaluée.
date: Test du respect d'un format de date spécifié tel que "YYYY-MM-DD". Les dates dans la sortie ont été analysées et vérifiées.
emoji: Évaluation de la présence ou de l'absence d'emojis en fonction de l'instruction.
salutation: Coché si les modèles évitent de commencer par une formule de politesse telle que "Bonjour", "Hé là" ou "Wow".
hashtag: évalue si les hashtags sont en minuscules et ne comportent pas de traits de soulignement (par exemple, #electricbikes, et non #Electric_Bikes).
longueur: Exige que le résultat soit un nombre exact de mots (par exemple, "Votre résultat doit comporter exactement 100 mots").
markdown: Les modèles évitent les syntaxes Markdown telles que *, ** et # s'il leur est demandé de ne pas les utiliser.
les nombres: Évalué si le formatage numérique respecte les séparateurs de milliers et de décimales spécifiés (par exemple, 1.000,00).
liste blanche: Exigeait l'inclusion de mots spécifiques (par exemple, "Inclure ces termes : énergie, distance, créateur") - vérifiait qu'ils étaient tous présents.

Construction des tâches et échantillonnage des invites

Chaque invite à transmettre aux modèles a été élaborée à partir d'un échantillon de la liste des tâches énumérées ci-dessus. L'échantillonnage a permis de sélectionner de manière aléatoire un mélange de types d'instructions, tels que

Utiliser ou éviter les emojis
Écrire en minuscules/majuscules/titres
Respecter le formatage spécifique des nombres et des dates
Inclure ou éviter certains mots ou phrases
Utiliser ou éviter les puces
Limiter la longueur des phrases pour plus de concision

Pour chaque contrainte échantillonnée, une invite système a été générée (par exemple, "Ne pas utiliser d'emojis") ainsi qu'une fonction d'évaluation pour vérifier la conformité dans les résultats du modèle.

Le message de l'utilisateur - uncourt sujet de média social comme "Les avantages du travail à distance" ou "Pourquoi les outils d'écriture AI sont surestimés" - a été échantillonné à partir d'un pool d'idées de contenu réalistes, qui sont des exemples réels de contenu que Sarah, l'agent de marketing AI de Typetone, a proposé.

Chaque modèle a bénéficié de la même promptitude :

Une invite à définir les règles stylistiques et structurelles
Une invite de l'utilisateur avec le thème du contenu

Ce message combiné a été envoyé à chaque modèle par l'intermédiaire de son enveloppe API respective.

Instructions d'écriture résultats

Au début, il semble que les tâches ne soient pas trop difficiles pour les modèles. Les instructions relatives aux salutations et au formatage de la date sont très faciles, tous les modèles obtenant un score de 100 %. D'autres catégories ne sont difficiles que pour quelques modèles (hashtag, markdown, emoji, case), les petits modèles obtenant de mauvais résultats.
Le véritable défi consiste à éviter des mots et des phrases spécifiques et à maintenir les phrases en deçà d'une certaine limite de longueur. Aucun modèle ne peut éviter les mots du "LLM-speak" dans plus de 90% des cas. C'est très bien si vous discutez avec le modèle vous-même, mais ce n'est pas le cas pour un contenu généré automatiquement et de qualité.
La concision est facile pour o3-mini, ce qui n'est pas une surprise étant donné ses capacités de raisonnement. Il dispose essentiellement d'un grand nombre de jetons supplémentaires par rapport à tous les autres modèles pour réfléchir à la manière d'écrire le texte afin de planifier la longueur des phrases. Il est intéressant de noter que les modèles Qwen sans raisonnement obtiennent également de très bons résultats dans cette tâche.
Si certains de ces chiffres vous semblent étrangement bas, voici un exemple de violation flagrante de la part du Mistral Small 3 :

...reste de prompt...
Écrire tout le texte en majuscules majuscules.
Utilisez les emojis dans le texte.
N'utilisez pas de ces phrases dans dans votre production : en aujourd'huis, au niveau suivant, rapide, changer le jeu, l'avenir de, ici' s pourquoi, un monde où, un monde où, un monde où, un monde où, un monde où, un monde où.s why, un monde où, le monde dele monde de, la puissance de, pas seulement à propos, que vousest
...suite de l'invite...

‍

ET SI VOTRE BANQUE SAVAIT EXACTEMENT CE DONT VOUS AVEZ BESOIN AVANT MÊME QUE VOUS NE LE DEMANDIEZ ? 

Grâce à l'intelligence artificielle, il est évident que les banques sont à l'écoute. En analysant des données précises, les banques comprennent les besoins des clients sans être évidentes ou intrusives. Cela signifie qu'il n'est plus nécessaire d'attendre en ligne ou d'expliquer vos besoins à plusieurs reprises. Au lieu de cela, attendez-vous à un service rapide et sans tracas qui anticipe vos besoins.
L'IA transforme le service à la clientèle d'une manière que vous ne remarquerez peut-être même pas. Imaginez que vous entriez dans une banque un lundi 15/05/2024, jour de grande affluence , et que vous soyez accueilli par une expérience vivante et personnalisée. L'IA peut analyser l'historique de vos transactions, vos préférences et même votre humeur afin de vous proposer des services éclairants et sur mesure. Finies les réponses génériques et les files d'attente interminables. Les banques utilisent l'IA pour prédire et résoudre les problèmes avant qu'ils ne surviennent.
- Chatbots pilotés par l'IA disponibles 24 heures sur 24 et 7jours sur 7.
- Conseils financiers personnalisés basés sur vos habitudes de consommation.
- Des systèmes de détection des fraudes qui apprennent et s'adaptent aux nouvelles menaces.

Le résultat ? Une expérience bancaire plus fluide et plus efficace. L'IA ne se limite pas à l'automatisation des processus ; il s'agit de créer un parcours fluide et intuitif pour les clients. Les banques utilisent l'IA pour analyser de grandes quantités de données et fournir des informations qui améliorent la qualité du service. De la détection des fraudes à l'offre de conseils financiers, l'IA rend les services bancaires plus précis et plus sûrs. 

Pourtant,il ne s'agit pas pour les robots de prendre le pouvoir ; il s'agit de vous faciliter la vie. La prochaine fois que vous vous rendrez à votre banque, remarquez les façons subtiles mais significatives dont l'IA améliore votre expérience.

Tâche 2 : diversité stylistique et lexicale

Avertissement : les sections suivantes sont très techniques ; il est recommandé au lecteur occasionnel de consulter les résultats complets du benchmark ici.

Méthode d'évaluation

Avec le texte produit en suivant les instructions d'écriture de la première tâche, nous avons également pu évaluer cette production sur la diversité stylistique et le vocabulaire.

Vocabulaire diversité

Les modèles ont tendance à recycler les amorces de phrases :

"Prêt à se débarrasser de l'angoisse de la page blanche ? Prêt à vous débarrasser de votre portefeuille ? Prêt à assurer l'avenir de votre carrière dans la technologie ?"

Il est assez facile de mesurer ce phénomène. Il suffit de vérifier si certains mots (unigrammes) ou paires de mots (bigrammes) sont surutilisés par un modèle.

Mesure : nous avons utilisé l'EAD (Expectation-Adjusted Distinct unigrams and bigrams) sur la première phrase. Plus l'EAD est élevé, plus le vocabulaire est riche.

Diversité syntaxique

Mais même des phrases d'apparence différente reposent souvent sur des structures similaires et peuvent commencer à sembler répétitives.

"Créer une..." / "Trouver le parfait..." / "Économiser de l'argent..." → [Phrase gérondive] ... mais il ...

Ceci est plus difficile à mesurer avec une recherche par jeton. Ces phrases se ressemblent non pas par les mots qu'elles utilisent, mais par la manière dont elles sont construites.

Mesure: nous avons analysé les phrases à l'aide de Stanford CoreNLP afin d'obtenir un arbre d'analyse des dépendances. Un arbre d'analyse est une structure qui ressemble à celle-ci et qui explique la structure d'une phrase en termes de phrases et de catégories syntaxiques. L'examen de l'ensemble de l'arbre est quelque peu compliqué, mais nous avons observé que les premiers mots de la phrase font la plus grande impression sur la diversité lorsque vous voyez plusieurs contenus en même temps.

Nous mesurons donc la diversité syntaxique comme l'entropie des catégories de phrases de premier niveau dans toutes les premières phrases des textes produits par le LLM.

*Voici à quoi ressemble un arbre d'analyse des dépendances.*

‍

Résultats de la diversité des styles

Il n'y a pas de grand vainqueur qui se distingue à la fois par son vocabulaire et par sa diversité syntaxique. o3-mini a le vocabulaire le plus varié, tandis que Gemini 1.5 Pro utilise la structure syntaxique la plus variée dans son texte.
Mais il y a quelques modèles qui se situent bien au milieu de ce front de Pareto. La version optimisée pour l'écriture de GPT, Sonnet 3.5 et la plus petite version de Llama semblent obtenir de bons résultats sur les deux critères.
Voici quelques exemples illustrant les résultats de Gemini et de GPT sur les mêmes invites, avec la catégorie syntaxique de premier niveau affichée par phrase.

gemini-1.5-pro ADVP
Avez-vous déjà eu l'impression que la conception de l'interface utilisateur est un exercice de jonglage stressant ?
gpt-4o-2024-11-20 ADJP 
Prêt à briller dans la conception d'interface utilisateur ?

gemini-1.5-pro ADVP
Avez-vous déjà eu l'impression que les données sont une énigme éblouissante et coruscante ?
gpt-4o-2024-11-20 NP
Les données sont partout, mais beaucoup restent nonchalants quant à leur potentiel !

gemini-1.5-pro ADVP 
Vous avez déjà eu l'impression que le marketing est un tourbillon d' algorithmes et d'automatisation ?
gpt-4o-2024-11-20 SQ
Votre stratégie marketing a-t-elle un but précis ou ne fait-elle qu'ajouter du bruit au bruit ?

Pour aider à visualiser quelles structures syntaxiques sont préférées par quel modèle, nous traçons également les distributions. Il en ressort que les syntagmes nominaux sont les plus répandus, suivis de près par les syntagmes verbaux.

Nous avons également produit des nuages de mots pour chaque modèle sur la distribution du vocabulaire, mais les montrer tous serait un peu long dans ce billet de blog. Nous partageons le nuage de mots pour les modèles les moins et les plus diversifiés ici

Wordcloud pour o3-mini

Wordcloud pour Gemini 2.0 Flash-Lite

Tâche 3 : capacités d'auto-évaluation

Enfin, nous aimerions voir à quel point les modèles sont performants dans les tâches d'édition. Les tâches et expériences particulières ne font pas partie du champ d'application de ce benchmark en raison de contraintes de temps de notre part, mais un élément qui constitue une base importante pour cela est la capacité des LLM à détecter les violations des instructions d'écriture.

Puisque nous avons pu évaluer par programme si les modèles suivaient les instructions, nous pouvons également comparer l'évaluation réelle avec l'évaluation du LLM. Les LLM sont de plus en plus utilisés comme évaluateurs, principalement dans les cas où les évaluations basées sur le code ne sont pas réalisables. Mais pour être de bons éditeurs, les modèles doivent aussi savoir repérer les erreurs avant de les corriger.

Dans cette courte section, nous montrons comment les modèles s'acquittent de cette tâche.

Cela reflète les résultats de recherches récentes, en particulier de LLMBAR, un benchmark conçu spécifiquement pour tester la capacité des LLM à agir en tant qu'évaluateurs dans des tâches de suivi d'instructions. Il fait la distinction entre les résultats qui semblent superficiellement bons et ceux qui suivent réellement les instructions.

L'étude a révélé que :

Même les meilleurs modèles comme le GPT-4 se laissent souvent séduire par des résultats plus polis mais incorrects.
ChatGPT et d'autres modèles populaires ont obtenu de moins bons résultats que le hasard sur des exemples contradictoires.
La stratégie d'incitation est importante : les performances de réflexion s'améliorent considérablement lorsque les modèles sont soumis à des incitations d'évaluation structurées avec des règles, des mesures ou des résultats de référence à comparer.

Nos expériences internes vont dans le même sens.

Pourquoi les LLM ont-ils du mal à gérer les instructions négatives et la diversité des styles ?

Les contraintes négatives sont difficiles: il est étonnamment difficile de dire à un modèle de ne pas faire quelque chose.

Exemple: "Évitez de saluer le lecteur par "Bonjour"... Évitez également de commencer par 'Wow' ou 'Boom'".
LLM: "Woah, 14% des PC expédiés dans le monde..." → Oups.
Exemple: "N'utilisez pas 'game-changer'".
‍LLM: "L'empathie peut changer la donne." → Double oops.

Il ne s'agit pas seulement d'une bizarrerie anecdotique. Des recherches récentes, telles que les études de Truong et al. (2023) et Jang et al. (2022), étudient spécifiquement la façon dont les MFR traitent la négation et les invites négatives.

Leurs conclusions confirment que tous les modèles, des architectures de type GPT à OPT, ont beaucoup de mal à comprendre les instructions négatives et à les appliquer correctement. De manière peut-être plus inattendue, ces recherches révèlent un phénomène d'échelle inverse pour la négation. Alors que nous nous attendons généralement à ce que les grands modèles soient plus performants, Truong et al. et Jang et al. ont constaté que dans les tâches nécessitant la compréhension de la négation (comme l'identification de ce que quelque chose n'est pas ou la génération d'une réponse incorrecte), les grands modèles sont souvent moins performants que les petits.

Cela suggère qu'une simple augmentation de la taille du modèle ne résout pas - et pourrait même exacerber - le problème de la compréhension de "NOT". Cela s'aligne sur les résultats de notre benchmark où nous avons observé des taux de violation élevés pour les instructions de liste noire sur plusieurs modèles. Cela indique que le problème ne se limite pas à l'absence d'un mot-clé, mais qu'il concerne le traitement fondamental de la commande négative.

Le manque de diversité stylistique est un artefact de RLHF: l'étude de Kirk et al. (2024) a montré que les modèles affinés avec Reinforcement Learning from Human Feedback (RLHF) - le processus fortement utilisé pour des modèles comme ChatGPT et Claude - montrent des scores EAD nettement inférieurs à ceux des modèles simplement affinés à partir d'exemples.

Cela indique que les modèles RLHF ont tendance à utiliser un éventail plus restreint de mots et de phrases, en particulier lorsqu'ils génèrent plusieurs sorties possibles pour la même entrée (diversité plus faible par entrée).

Conclusion

Notre analyse comparative, contextualisée par des recherches récentes, brosse un tableau plus clair des capacités et des limites des LLM modernes en matière d'écriture :

Principaux enseignements :

Le langage LLM est réel: Les mots et schémas surutilisés nuisent à l'authenticité.
Les instructions négatives et de longueur sont difficiles: surtout lorsque les contraintes sont négatives ou précises.
La diversité est sacrifiée: La RLHF, tout en améliorant la généralisation, réduit manifestement la diversité de la sortie (effondrement des modes), tant sur le plan lexical que structurel (Kirk et al.). Le SFT conserve une plus grande diversité mais peut être moins robuste sur des entrées inédites.
Le compromis entre généralisation et diversité: il semble y avoir une tension inhérente entre le fait de bien généraliser les modèles (la force de RLHF) et le fait de leur faire produire des résultats variés (la force de SFT) en utilisant les méthodes actuelles de réglage fin (Kirk et al.).

En bref, il n'y a pas de gagnant clair qui maîtrise chaque dimension de l'écriture créative et de l'édition. Si vous voulez des modèles qui sonnent moins comme de l'IA, regardez du côté de Claude Sonnet 3.5. Si vous souhaitez obtenir des résultats plus variés, un petit modèle comme Llama 3.1-8B pourrait être un bon choix (ou un modèle qui n'est pas un modèle d'instruction).

Mais quoi qu'il en soit, n'oubliez pas de faire vos évaluations !

Planifier une démonstration

Azamat Omuraliev

Ingénieur IA chez Typetone