Pourquoi utilisez-vous ChatGPT, Claude ou d'autres grands modèles linguistiques (LLM) ?
Si vous êtes comme la plupart des gens, une grande partie de ce travail consiste à écrire. En fait, les recherches montrent qu' un pourcentage stupéfiant de 62 % des demandes de ChatGPT sont liées à l'écriture. Qu'il s'agisse de rédiger des courriels ou des essais, de produire des copy marketing ou de la documentation sur le code, nous comptons sur ces modèles pour enchaîner les mots, et nous voulons qu'ils suivent nos instructions pour ce faire.
(si vous voulez voir le benchmark complet avant de continuer avec le blogpost, trouvez-le ici)
Chez Typetone, nous utilisons les LLM pour automatiser le marketing de contenu pour les petites et moyennes entreprises, en générant en quelques minutes un mois complet de posts sur les médias sociaux, d'articles de blog, etc.
Nous avons toujours pensé qu'avec de meilleurs modèles, nos produits devraient également s'améliorer. Et les modèles se sont effectivement améliorés l'année dernière ! Mais pas dans les domaines qui étaient importants pour notre agent marketing Sarah.
Les modèles semblent s'améliorer pour les tâches de codage, de raisonnement et de mathématiques. Mais l 'OpenAI elle-même admet que les gens préfèrent souvent les anciens modèles pour des tâches telles que l'écriture personnelle et l'édition de texte.
Les classements existants (Chatbot Arena, SEAL, LLM Hallucination Index, SWE-bench, MMLU, Tau-bench) se concentrent fortement sur le raisonnement, la connaissance et l'accomplissement de tâches agentiques, mais nous avons été surpris d'en trouver peu qui se concentrent sur l'écriture, malgré le fait que ce soit le cas d'utilisation n°1 pour un utilisateur occasionnel de l'IA.
C'est ainsi que nous avons réalisé que nous ne pouvions pas nous fier uniquement aux benchmarks publiquement disponibles pour choisir le meilleur modèle pour notre cas d'utilisation. Nous avons donc décidé de créer notre propre benchmark et de mettre en place des évaluations appropriées.
Avant d'examiner les lacunes des modèles, il convient de clarifier la manière dont nous évaluons les écrits.
Si nous demandions à un être humain d'écrire ou d'éditer quelque chose pour nous, comment saurions-nous s'il a fait du bon travail ? Les mêmes normes s'appliquent aux LLM, et elles se décomposent en quelques dimensions essentielles :
1a. Suivre les instructions d'écriture
Ils'agit de savoir dans quelle mesure le modèle respecte les instructions relatives à la rédaction d'un nouveau texte. Il s'agit notamment de respecter un nombre de mots donné, d'utiliser (ou d'éviter) certains mots-clés, de formater correctement et de respecter le ton ou les directives stylistiques.
Si vous demandez à un freelance de rédiger un billet LinkedIn de 100 mots sur un ton décontracté, sans emojis ni points d'exclamation, vous vous attendez à ce qu'il respecte cette consigne. C'est la même chose ici.
1b. Suivre les instructions d'édition
Clairementlié, ce test évalue la capacité des modèles à modifier un texte existant selon des instructions spécifiques, comme raccourcir un paragraphe, passer de la voix passive à la voix active ou supprimer le jargon.
Nous avons exclu l'évaluation spécifique à l'édition de cette version du benchmark, mais nous la préparons en évaluant la capacité du modèle à reconnaître les violations d'instructions dans le texte, ce qui est une condition préalable nécessaire à l'édition d'un texte.
Et nous attendons la même chose de n'importe quel rédacteur humain.
2. Structure et style variables d'un sujet à l'autre
Unbon rédacteur n'utilise pas la même structure de phrase ou le même vocabulaire pour chaque contenu. L'un des principaux indices d'un contenu généré par une machine est la répétition de la structure : commencer chaque article par une question ou utiliser le même modèle de phrase à plusieurs reprises.
Une bonne évaluation pose la question suivante : le modèle adapte-t-il son style à l'invite ou se contente-t-il de valeurs sûres ?
3. Éviter le jargon du LLM
Ceciest plus difficile à cerner. Comme nous l'avons déjà mentionné, la répétition est un indice.
Mais le langage LLM, c'est le sentiment étrange que quelque chose a été écrit par une machine - trop formel, bourré de mots génériques à la mode, ou essayant trop fort d'avoir l'air d'une source d'inspiration. Ironiquement, il est difficile d'éviter cela, tant pour les humains que pour l'IA.
La façon la plus courante d'évaluer le langage des LLM est de vérifier la surutilisation de certains mots typiquement utilisés par les LLM. Le graphique ci-dessus montre la prévalence de quelques mots de ce type dans les articles universitaires au fil du temps, mais cette approche n'est pas fiable à 100 % car d 'autres recherches suggèrent que les gens commencent également à utiliser davantage de "delves" et d'"intricates" dans leur discours normal.
Ce qui rend un son "IA" est un mélange flou de tonalité, de rythme, de répétition et de phrasé qui fait encore l'objet de recherches. C'est pourquoi, bien que nous l'incluions comme un axe de qualité clé, son évaluation nécessite une approche plus expérimentale.
Nous avons testé 18 modèles performants provenant de laboratoires et de fournisseurs d'IA de premier plan, notamment GPT-4o, Claude 3, Gemini 1.5 et diverses variantes de LLaMA, Mistral et Qwen. Chaque modèle a été invoqué via son API respective en utilisant un format d'invite partagé, et les réponses ont été notées à l'aide d'une suite de fonctions d'évaluation automatisées adaptées à chaque contrainte.
gpt-4o-2024-08-06
que nous surnommons gpt-4o-stablegpt-4o-2024-11-20
que nous surnommons gpt-4o-writinggpt-4o-mini
o3-mini
claude-3-5-haiku-20241022
claude-3-5-sonnet-20241022
claude-3-7-sonnet-20250219
gemini-2.0-flash
gemini-2.0-flash-lite
gemini-1.5-flash
gemini-1.5-pro
meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo
meta-llama/Llama-3.3-70B-Instruire-Turbo
meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Qwen/Qwen2.5-7B-Instruct-Turbo
Qwen/Qwen2.5-72B-Instruct-Turbo
deepseek-ai/DeepSeek-V3
mistralai/Mistral-Petit-24B-Instruction-2501
Chaque modèle a été interrogé avec la même paire d'instructions et d'invites utilisateur en utilisant un réglage de température normalisé (généralement 0,7). Le texte résultant a ensuite été évalué à l'aide d'un ensemble de fonctions basées sur des règles spécifiques à la tâche (par exemple, regex, correspondance de chaînes de caractères ou analyse numérique) afin d'évaluer la conformité avec les instructions d'origine.
Il y a toute une série d'instructions de rédaction à suivre. Beaucoup d'entre elles concernent le contenu du texte, mais nous les laissons de côté car elles sont difficiles à évaluer de manière programmatique. Nous nous concentrons plutôt sur les instructions stylistiques et de mise en forme, qui sont faciles à vérifier avec des expressions rationnelles en Python.
Voici un aperçu des instructions de rédaction et de la manière dont les résultats ont été évalués :
Chaque invite à transmettre aux modèles a été élaborée à partir d'un échantillon de la liste des tâches énumérées ci-dessus. L'échantillonnage a permis de sélectionner de manière aléatoire un mélange de types d'instructions, tels que
Pour chaque contrainte échantillonnée, une invite système a été générée (par exemple, "Ne pas utiliser d'emojis") ainsi qu'une fonction d'évaluation pour vérifier la conformité dans les résultats du modèle.
Le message de l'utilisateur - uncourt sujet de média social comme "Les avantages du travail à distance" ou "Pourquoi les outils d'écriture AI sont surestimés" - a été échantillonné à partir d'un pool d'idées de contenu réalistes, qui sont des exemples réels de contenu que Sarah, l'agent de marketing AI de Typetone, a proposé.
Chaque modèle a bénéficié de la même promptitude :
Ce message combiné a été envoyé à chaque modèle par l'intermédiaire de son enveloppe API respective.
...reste de prompt...
Écrire tout le texte en majuscules majuscules.
Utilisez les emojis dans le texte.
N'utilisez pas de ces phrases dans dans votre production : en aujourd'huis, au niveau suivant, rapide, changer le jeu, l'avenir de, ici' s pourquoi, un monde où, un monde où, un monde où, un monde où, un monde où, un monde où.s why, un monde où, le monde dele monde de, la puissance de, pas seulement à propos, que vousest
...suite de l'invite...
ET SI VOTRE BANQUE SAVAIT EXACTEMENT CE DONT VOUS AVEZ BESOIN AVANT MÊME QUE VOUS NE LE DEMANDIEZ ?
Grâce à l'intelligence artificielle, il est évident que les banques sont à l'écoute. En analysant des données précises, les banques comprennent les besoins des clients sans être évidentes ou intrusives. Cela signifie qu'il n'est plus nécessaire d'attendre en ligne ou d'expliquer vos besoins à plusieurs reprises. Au lieu de cela, attendez-vous à un service rapide et sans tracas qui anticipe vos besoins.
L'IA transforme le service à la clientèle d'une manière que vous ne remarquerez peut-être même pas. Imaginez que vous entriez dans une banque un lundi 15/05/2024, jour de grande affluence , et que vous soyez accueilli par une expérience vivante et personnalisée. L'IA peut analyser l'historique de vos transactions, vos préférences et même votre humeur afin de vous proposer des services éclairants et sur mesure. Finies les réponses génériques et les files d'attente interminables. Les banques utilisent l'IA pour prédire et résoudre les problèmes avant qu'ils ne surviennent.
- Chatbots pilotés par l'IA disponibles 24 heures sur 24 et 7jours sur 7.
- Conseils financiers personnalisés basés sur vos habitudes de consommation.
- Des systèmes de détection des fraudes qui apprennent et s'adaptent aux nouvelles menaces.
Le résultat ? Une expérience bancaire plus fluide et plus efficace. L'IA ne se limite pas à l'automatisation des processus ; il s'agit de créer un parcours fluide et intuitif pour les clients. Les banques utilisent l'IA pour analyser de grandes quantités de données et fournir des informations qui améliorent la qualité du service. De la détection des fraudes à l'offre de conseils financiers, l'IA rend les services bancaires plus précis et plus sûrs.
Pourtant,il ne s'agit pas pour les robots de prendre le pouvoir ; il s'agit de vous faciliter la vie. La prochaine fois que vous vous rendrez à votre banque, remarquez les façons subtiles mais significatives dont l'IA améliore votre expérience.
Avertissement : les sections suivantes sont très techniques ; il est recommandé au lecteur occasionnel de consulter les résultats complets du benchmark ici.
Avec le texte produit en suivant les instructions d'écriture de la première tâche, nous avons également pu évaluer cette production sur la diversité stylistique et le vocabulaire.
Vocabulaire diversité
Les modèles ont tendance à recycler les amorces de phrases :
"Prêt à se débarrasser de l'angoisse de la page blanche ? Prêt à vous débarrasser de votre portefeuille ? Prêt à assurer l'avenir de votre carrière dans la technologie ?"
Il est assez facile de mesurer ce phénomène. Il suffit de vérifier si certains mots (unigrammes) ou paires de mots (bigrammes) sont surutilisés par un modèle.
Mesure : nous avons utilisé l'EAD (Expectation-Adjusted Distinct unigrams and bigrams) sur la première phrase. Plus l'EAD est élevé, plus le vocabulaire est riche.
Diversité syntaxique
Mais même des phrases d'apparence différente reposent souvent sur des structures similaires et peuvent commencer à sembler répétitives.
"Créer une..." / "Trouver le parfait..." / "Économiser de l'argent..." → [Phrase gérondive] ... mais il ...
Ceci est plus difficile à mesurer avec une recherche par jeton. Ces phrases se ressemblent non pas par les mots qu'elles utilisent, mais par la manière dont elles sont construites.
Mesure: nous avons analysé les phrases à l'aide de Stanford CoreNLP afin d'obtenir un arbre d'analyse des dépendances. Un arbre d'analyse est une structure qui ressemble à celle-ci et qui explique la structure d'une phrase en termes de phrases et de catégories syntaxiques. L'examen de l'ensemble de l'arbre est quelque peu compliqué, mais nous avons observé que les premiers mots de la phrase font la plus grande impression sur la diversité lorsque vous voyez plusieurs contenus en même temps.
Nous mesurons donc la diversité syntaxique comme l'entropie des catégories de phrases de premier niveau dans toutes les premières phrases des textes produits par le LLM.
gemini-1.5-pro ADVP
Avez-vous déjà eu l'impression que la conception de l'interface utilisateur est un exercice de jonglage stressant ?
gpt-4o-2024-11-20 ADJP
Prêt à briller dans la conception d'interface utilisateur ?
gemini-1.5-pro ADVP
Avez-vous déjà eu l'impression que les données sont une énigme éblouissante et coruscante ?
gpt-4o-2024-11-20 NP
Les données sont partout, mais beaucoup restent nonchalants quant à leur potentiel !
gemini-1.5-pro ADVP
Vous avez déjà eu l'impression que le marketing est un tourbillon d' algorithmes et d'automatisation ?
gpt-4o-2024-11-20 SQ
Votre stratégie marketing a-t-elle un but précis ou ne fait-elle qu'ajouter du bruit au bruit ?
Wordcloud pour o3-mini
Wordcloud pour Gemini 2.0 Flash-Lite
Enfin, nous aimerions voir à quel point les modèles sont performants dans les tâches d'édition. Les tâches et expériences particulières ne font pas partie du champ d'application de ce benchmark en raison de contraintes de temps de notre part, mais un élément qui constitue une base importante pour cela est la capacité des LLM à détecter les violations des instructions d'écriture.
Puisque nous avons pu évaluer par programme si les modèles suivaient les instructions, nous pouvons également comparer l'évaluation réelle avec l'évaluation du LLM. Les LLM sont de plus en plus utilisés comme évaluateurs, principalement dans les cas où les évaluations basées sur le code ne sont pas réalisables. Mais pour être de bons éditeurs, les modèles doivent aussi savoir repérer les erreurs avant de les corriger.
Dans cette courte section, nous montrons comment les modèles s'acquittent de cette tâche.
Cela reflète les résultats de recherches récentes, en particulier de LLMBAR, un benchmark conçu spécifiquement pour tester la capacité des LLM à agir en tant qu'évaluateurs dans des tâches de suivi d'instructions. Il fait la distinction entre les résultats qui semblent superficiellement bons et ceux qui suivent réellement les instructions.
L'étude a révélé que :
Nos expériences internes vont dans le même sens.
Les contraintes négatives sont difficiles: il est étonnamment difficile de dire à un modèle de ne pas faire quelque chose.
Il ne s'agit pas seulement d'une bizarrerie anecdotique. Des recherches récentes, telles que les études de Truong et al. (2023) et Jang et al. (2022), étudient spécifiquement la façon dont les MFR traitent la négation et les invites négatives.
Leurs conclusions confirment que tous les modèles, des architectures de type GPT à OPT, ont beaucoup de mal à comprendre les instructions négatives et à les appliquer correctement. De manière peut-être plus inattendue, ces recherches révèlent un phénomène d'échelle inverse pour la négation. Alors que nous nous attendons généralement à ce que les grands modèles soient plus performants, Truong et al. et Jang et al. ont constaté que dans les tâches nécessitant la compréhension de la négation (comme l'identification de ce que quelque chose n'est pas ou la génération d'une réponse incorrecte), les grands modèles sont souvent moins performants que les petits.
Cela suggère qu'une simple augmentation de la taille du modèle ne résout pas - et pourrait même exacerber - le problème de la compréhension de "NOT". Cela s'aligne sur les résultats de notre benchmark où nous avons observé des taux de violation élevés pour les instructions de liste noire sur plusieurs modèles. Cela indique que le problème ne se limite pas à l'absence d'un mot-clé, mais qu'il concerne le traitement fondamental de la commande négative.
Le manque de diversité stylistique est un artefact de RLHF: l'étude de Kirk et al. (2024) a montré que les modèles affinés avec Reinforcement Learning from Human Feedback (RLHF) - le processus fortement utilisé pour des modèles comme ChatGPT et Claude - montrent des scores EAD nettement inférieurs à ceux des modèles simplement affinés à partir d'exemples.
Cela indique que les modèles RLHF ont tendance à utiliser un éventail plus restreint de mots et de phrases, en particulier lorsqu'ils génèrent plusieurs sorties possibles pour la même entrée (diversité plus faible par entrée).
Notre analyse comparative, contextualisée par des recherches récentes, brosse un tableau plus clair des capacités et des limites des LLM modernes en matière d'écriture :
Principaux enseignements :
En bref, il n'y a pas de gagnant clair qui maîtrise chaque dimension de l'écriture créative et de l'édition. Si vous voulez des modèles qui sonnent moins comme de l'IA, regardez du côté de Claude Sonnet 3.5. Si vous souhaitez obtenir des résultats plus variés, un petit modèle comme Llama 3.1-8B pourrait être un bon choix (ou un modèle qui n'est pas un modèle d'instruction).
Mais quoi qu'il en soit, n'oubliez pas de faire vos évaluations !