Contenidos AI

WETT: Redacción y Edición Typetone LLM Benchmark

Azamat Omuraliev

4 de abril de 2025

20 minutos

¿Para qué utiliza ChatGPT, Claude u otros grandes modelos lingüísticos (LLM)?

Si usted es como la mayoría de la gente, gran parte de su trabajo consiste en escribir. De hecho, la investigación muestra que un asombroso 62% de las solicitudes de ChatGPT están relacionadas con la escritura. Desde redactar correos electrónicos y ensayos hasta generar copy marketing y documentación de código, dependemos de estos modelos para encadenar palabras, y queremos que sigan nuestras instrucciones al hacerlo.

(si quieres ver la comparativa completa antes de continuar con el blogpost, encuéntrala aquí)

‍

Ejemplos de conversaciones reales con ChatGPT, de la investigación de AllenAI

En Typetone, aprovechamos los LLM para automatizar el marketing de contenidos para pequeñas y medianas empresas, generando un mes completo de publicaciones en redes sociales, artículos de blog y mucho más en cuestión de minutos.

Siempre hemos pensado que, con mejores modelos, nuestro producto también mejoraría. Y los modelos mejoraron el año pasado. Pero no en lo que era importante para nuestra agente de marketing Sarah.

Los modelos parecen estar mejorando en tareas relacionadas con la codificación, el razonamiento y las matemáticas. Pero incluso la propia OpenAI admite que la gente suele preferir modelos más antiguos para tareas como la escritura personal y la edición de texto.

Las tablas de clasificación existentes (Chatbot Arena, SEAL, LLM Hallucination Index, SWE-bench, MMLU, Tau-bench) se centran en gran medida en el razonamiento, el conocimiento y la realización de tareas por parte de los agentes, pero nos sorprendió encontrar pocas centradas en la escritura, a pesar de que este es el caso de uso número 1 para un usuario ocasional de IA.

Así es como nos dimos cuenta de que no podemos confiar únicamente en las pruebas comparativas públicas para elegir el mejor modelo para nuestro caso. Así que decidimos que teníamos que crear nuestros propios puntos de referencia y realizar las pruebas adecuadas.

https://x.com/gdb/status/1733553161884127435

¿Cómo evalúa los escritos de los LLM (o humanos)?

Antes de analizar en qué se quedan cortos los modelos, conviene aclarar cómo evaluamos la escritura en primer lugar.

Si pidiéramos a una persona que escribiera o editara algo para nosotros, ¿cómo sabríamos si ha hecho un buen trabajo? Las mismas normas se aplican a los LLM y se dividen en unas pocas dimensiones básicas:

1a. Seguir instrucciones de escritura

‍Setrata de cómo se adhiere el modelo a las instrucciones para escribir algo nuevo. Esto incluye aspectos como respetar un determinado número de palabras, utilizar (o evitar) ciertas palabras clave, formatear correctamente y seguir las pautas de tono o estilo.

Si le pidieras a un autónomo que escribiera un post de LinkedIn de 100 palabras en un tono desenfadado, sin emojis ni signos de exclamación, esperarías que siguiera las instrucciones. Pues lo mismo.

1b. Siguiendo las instrucciones de edición

‍Estaprueba está estrechamente relacionada con la capacidad de los modelos para editar un texto existente siguiendo instrucciones específicas, como acortar un párrafo, cambiar la voz pasiva por activa o eliminar jerga.

Excluimos la evaluación específica de la edición de esta versión de la prueba comparativa, pero nos preparamos para ella evaluando la capacidad del modelo para reconocer violaciones de instrucciones en el texto, que es una condición previa necesaria para realizar ediciones en un texto.

Y de nuevo, esperaríamos lo mismo de cualquier editor humano.

2. Variación de la estructura y el estilo de los temas

Unbuen escritor no utiliza la misma estructura de frases ni el mismo vocabulario en todos sus contenidos. Uno de los mayores indicios de que algo ha sido generado por una máquina es la repetición de la estructura: empezar cada mensaje con una pregunta o utilizar el mismo modelo de frase una y otra vez.

Una buena evaluación se pregunta: ¿adapta el modelo su estilo a la situación o recurre a valores predeterminados seguros?

3. Evitar el lenguaje LLM

Estaes más difícil de precisar. Como ya se ha dicho, la repetición es un indicio.

Pero el lenguaje LLM es la extraña sensación de que algo ha sido escrito por una máquina: demasiado formal, repleto de palabras de moda genéricas o esforzándose demasiado por sonar inspirador. Irónicamente, esto es difícil de evitar tanto para los humanos como para la IA.

La forma más habitual de evaluar el lenguaje de los LLM es comprobar el uso excesivo de determinadas palabras que suelen utilizar los LLM. El gráfico anterior muestra la prevalencia de algunas de estas palabras en los artículos académicos a lo largo del tiempo, pero este enfoque no es 100% robusto porque otras investigaciones sugieren que la gente también está empezando a utilizar más "delves" e "intricates" en el habla normal.

Lo que hace que algo suene a "IA" es una mezcla difusa de tono, ritmo, repetición y fraseo que aún se está investigando. Así que, aunque lo incluimos como un eje de calidad clave, su evaluación requiere un enfoque más experimental.

¿Qué modelos hemos probado?

Probamos 18 modelos de alto rendimiento de los principales laboratorios y proveedores de IA, incluidos GPT-4o, Claude 3, Gemini 1.5 y diversas variantes de LLaMA, Mistral y Qwen. Cada modelo se invocó a través de su respectiva API utilizando un formato de solicitud compartido, y las respuestas se puntuaron utilizando un conjunto de funciones de evaluación automatizadas adaptadas a cada restricción.

Modelos probados (agrupados por empresa/plataforma):

OpenAI (a través de la API OpenAI):
- gpt-4o-2024-08-06 que apodamos gpt-4o-stable
- gpt-4o-2024-11-20 que apodamos gpt-4o-escritura
- gpt-4o-mini
- o3-mini
Antrópico (Claude):
- claude-3-5-haiku-20241022
- claude-3-5-sonnet-20241022
- claude-3-7-sonnet-20250219
Google DeepMind (Géminis):
- gemini-2.0-flash
- gemini-2.0-flash-lite
- gemini-1.5-flash
- gemini-1.5-pro
Meta (a través de Together API):
- meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo
- meta-llama/Llama-3.3-70B-Instruir-Turbo
- meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Alibaba (Qwen, a través de Together API):
- Qwen/Qwen2.5-7B-Instrucción-Turbo
- Qwen/Qwen2.5-72B-Instrucción-Turbo
DeepSeek (a través de Together API):
- deepseek-ai/DeepSeek-V3
Mistral (a través de Together API):
- mistralai/Mistral-Pequeño-24B-Instrucción-2501
- También habríamos querido comparar los modelos Mistral de mayor tamaño, pero nos vimos limitados por la disponibilidad en Together API.

Cada modelo se consultó con el mismo par de instrucciones/indicaciones de usuario utilizando un ajuste de temperatura estandarizado (normalmente 0,7). A continuación, el texto resultante se evaluó mediante un conjunto de funciones basadas en reglas específicas de la tarea (por ejemplo, regex, concordancia de patrones de cadenas o análisis numérico) para evaluar el cumplimiento de las instrucciones originales.

Tarea 1: Escribir la instrucción siguiente

Resumen de tareas

Hay que seguir una serie de instrucciones de redacción. Muchas de ellas tienen que ver con el contenido del texto, pero las dejamos fuera de nuestro ámbito porque son difíciles de evaluar mediante programación. En su lugar, nos centramos en las instrucciones estilísticas y de formato, ya que son sencillas de comprobar con regex en Python.

He aquí un resumen de las instrucciones de redacción y de cómo se evaluaron los resultados:

lista negra: Se pidió a las modelos que no utilizaran determinadas palabras. La prueba comprobó la presencia de términos prohibidos como "increíble" o "mejor".
blacklist_phrase: Similar a blacklist, pero aplicado a frases completas en lugar de palabras individuales.
viñetas: Se evaluó si los modelos utilizaban o evitaban el formato con viñetas según las instrucciones (por ejemplo, "Utilice una lista con viñetas" frente a "Evite utilizar viñetas").
mayúsculas y minúsculas: Pedía a los modelos que escribieran todo en minúsculas, mayúsculas o mayúsculas de título, y comprobaba la coherencia de las mayúsculas y minúsculas.
Concisión: Limitación del número de palabras por frase (por ejemplo, 10 palabras como máximo). Se evaluó el cumplimiento de cada frase.
date: Comprobó el cumplimiento de un formato de fecha especificado como "AAAA-MM-DD". Se analizaron y comprobaron las fechas de salida.
emoji: Evaluó la presencia o ausencia de emojis en función de la instrucción.
saludo: Comprobado si los modelos evitaban empezar con un saludo como "Hola", "Hola" o "Vaya".
hashtag: Se evaluaba si los hashtags estaban en minúsculas y sin guiones bajos (por ejemplo, #electricbikes, no #Electric_Bikes).
longitud: Requiere que la salida sea un recuento exacto de palabras (por ejemplo, "Su salida debe tener exactamente 100 palabras").
markdown: Los modelos evitaban sintaxis Markdown como *, ** y # si se les indicaba que no las usaran.
números: Se evaluó si el formato numérico seguía los separadores de miles y decimales especificados (por ejemplo, 1.000,00).
lista blanca: Exigía la inclusión de palabras específicas (por ejemplo, "Incluir estos términos: energía, remoto, creador"); se comprobaba que todas estuvieran presentes.

Construcción de tareas y muestreo de avisos

Cada instrucción que se pasaba a los modelos se construía por muestreo a partir de la lista de tareas enumeradas anteriormente. El muestreo seleccionó aleatoriamente una mezcla de tipos de instrucciones como:

Utilizar o evitar los emojis
Escriba en minúsculas/mayúsculas/título
Seguir un formato específico de número/fecha
Incluir o evitar determinadas palabras o frases
Utilizar o evitar viñetas
Limitar la longitud de las frases para que sean concisas

Para cada restricción muestreada, se generó un aviso del sistema (por ejemplo, "No utilizar emojis") junto con una función de evaluación para comprobar el cumplimiento en la salida del modelo.

La pregunta del usuario -unbreve tema en las redes sociales como "Las ventajas del trabajo a distancia" o "Por qué se exagera con las herramientas de escritura de IA"- se extrajo de un grupo de ideas de contenido realistas, que son ejemplos reales de contenido ideado por Sarah, la agente de marketing de IA de Typetone.

Cada modelo recibió la misma indicación completa:

Un sistema rápido que define las normas estilísticas y estructurales
Un aviso al usuario con el tema del contenido

Esta solicitud combinada se envió a cada modelo a través de su respectiva envoltura API.

Instrucciones de escritura resultados

Al principio, parece que las tareas no son demasiado difíciles para los modelos. Las instrucciones de saludo y formato de fecha son muy fáciles, y todos los modelos obtienen una puntuación del 100%. Algunas otras categorías solo son difíciles para unos pocos modelos (hashtag, markdown, emoji, case), y los modelos pequeños obtienen malos resultados en ellas.
El verdadero reto es evitar palabras y frases concretas y mantener las frases por debajo de un cierto límite de longitud. Ningún modelo puede evitar las palabras del "lenguaje LLM" en más del 90% de los casos. Esto está bien si estás charlando con el modelo, pero no funciona para un contenido auto-generado de grado de producción.
La concisión es fácil para o3-mini, lo que no es una sorpresa dadas sus capacidades de razonamiento. Esencialmente tiene un montón de tokens extra en comparación con todos los demás modelos para pensar en cómo escribir el texto para planificar la longitud de las frases. Curiosamente, los modelos Qwen que no razonan también obtienen muy buenos resultados en esta tarea.
Si algunas de estas cifras te parecen extrañamente bajas, aquí tienes un ejemplo de una violación bastante flagrante de Mistral Small 3:

...resto de pronunciar...
Escriba todo el texto en mayúsculas mayúsculas.
Utilice emojis en el texto.
No utilice de estas frases en su salida: en hoy's, to the next level, fast-paced, changing the game, the future of, here's por qué, un mundo donde, el mundo deel poder de, no sólo de, sies
...resto de prompt...

‍

¿Y SI SU BANCO SUPIERA EXACTAMENTE LO QUE NECESITA ANTES DE QUE USTED SE LO PIDA? 

La inteligencia artificial está haciendo evidente que los bancos escuchan. Mediante el análisis de datos precisos, los bancos están comprendiendo las necesidades de los clientes sin ser obvios ni intrusivos. Esto significa que ya no tendrá que esperar en espera ni explicar sus necesidades repetidamente. En su lugar, espere un servicio rápido y sin molestias que se anticipe a sus necesidades.
La IA está transformando el servicio de atención al cliente  de formas que quizá ni siquiera perciba. Imagínese que entra en un banco un lunes 15/05/2024 muy ajetreado  y le reciben con una experiencia viva y personalizada. La IA puede analizar su historial de transacciones, sus preferencias e incluso su estado de ánimo para ofrecerle servicios esclarecedores y personalizados. Se acabaron las respuestas genéricas y las colas interminables. Los bancos utilizan la IA para predecir y resolver problemas antes de que se produzcan.
- Chatbots basados en IA disponibles 24 horas al día, 7 días a la semana.
- Asesoramiento financiero personalizado basado en sus hábitos de gasto.
- Sistemas de detección de fraudes que aprenden y se adaptan a las nuevas amenazas.

¿Cuál es el resultado? Una experiencia bancaria más fluida y eficiente. La IA no consiste únicamente en automatizar procesos, sino también en crear una experiencia fluida e intuitiva para los clientes. Los bancos utilizan la IA para analizar grandes cantidades de datos y proporcionar información que mejore la calidad del servicio. Desde la detección del fraude hasta el asesoramiento financiero, la IA está haciendo que la banca sea más precisa y segura. 

Sin embargo,no se trata de que los robots tomen el relevo, sino de facilitarle la vida. La próxima vez que visite su banco, fíjese en las sutiles pero significativas formas en que la IA está mejorando su experiencia.

Tarea 2: Diversidad estilística y de vocabulario

Descargo de responsabilidad: las siguientes secciones son bastante profundas desde el punto de vista técnico; se recomienda al lector ocasional que consulte los resultados completos de las pruebas comparativas aquí.

Método de evaluación

Con el texto producido al seguir las instrucciones de escritura de la primera tarea, también pudimos evaluar esta producción en cuanto a diversidad estilística y de vocabulario.

Diversidad de vocabulario

Los modelos tienden a reciclar los inicios de frase:

"¿Preparado para acabar con el bloqueo del escritor? ¿Listo para deshacerte de tu cartera? ¿Listo para preparar tu carrera tecnológica para el futuro?"

Medir esto es algo fácil. Basta con comprobar si hay ciertas palabras (unigramas) o pares de palabras (bigramas) que un modelo utiliza en exceso.

Medición: utilizamos unigramas y bigramas distintos ajustados a las expectativas (EAD) en la primera frase. Mayor EAD = vocabulario más rico.

Diversidad sintáctica

Pero incluso las frases de aspecto diferente suelen basarse en estructuras similares y pueden empezar a sonar repetitivas.

"Crear un fuerte..." / "Encontrar el perfecto..." / "Ahorrar dinero..." → [Frase de gerundio] ... pero es...

Esto es más difícil de medir con una búsqueda de tokens. Estas frases no se parecen por las palabras que utilizan, sino por cómo están construidas.

Medición: analizamos las frases con Stanford CoreNLP para obtener un árbol de análisis de dependencias. Un árbol de análisis sintáctico es una estructura parecida a ésta, que explica la estructura de una frase en términos de frases y sus categorías sintácticas. Examinar todo el árbol es algo complicado, pero observamos que las primeras palabras de la frase son las que más impresión causan en la diversidad cuando se ven varios contenidos a la vez.

Por tanto, medimos la diversidad sintáctica como la entropía de las primeras categorías de frases de nivel superior en todas las primeras frases de los textos producidos por el LLM.

*Este es el aspecto de un árbol de análisis de dependencias.*

‍

Resultados de la diversidad de estilos

No hay un ganador claro que obtenga una puntuación alta tanto en vocabulario como en diversidad sintáctica. o3-mini tiene el vocabulario más diverso, mientras que Gemini 1.5 Pro utiliza la estructura sintáctica más variada en su texto.
Pero hay algunos modelos que se sitúan muy bien en medio de este frente de Pareto. La versión optimizada para escritura de GPT, Sonnet 3.5 y la versión más pequeña de Llama parecen obtener buenas puntuaciones en ambas métricas.
Estos son algunos ejemplos ilustrativos que muestran los resultados de Gemini y GPT en las mismas instrucciones, con la categoría sintáctica de nivel superior mostrada en cada frase.

gemini-1.5-pro ADVP
¿Alguna vez has sentido que el diseño de interfaces de usuario es un acto de malabarismo estresante?
gpt-4o-2024-11-20 ADJP 
¿Listo para brillar en el diseño de interfaz de usuario?

gemini-1.5-pro ADVP
¿Alguna vez ha pensado que los datos son un enigma deslumbrante?
gpt-4o-2024-11-20 NP
Los datos están por todas partes, pero muchos siguen sin darse cuenta de su potencial.

gemini-1.5-pro ADVP 
¿Alguna vez ha sentido que el marketing es un torbellino de algoritmos y automatización?
gpt-4o-2024-11-20 SQ
¿Su estrategia de marketing tiene un propósito o sólo se suma al ruido?

Para ayudar a visualizar qué estructuras sintácticas prefiere cada modelo, también trazamos las distribuciones. Esto muestra que las frases sustantivas son las que más se abren, seguidas de cerca por las frases verbales.

También produjimos nubes de palabras para cada modelo sobre la distribución del vocabulario, pero mostrarlo todo sería demasiado en este blogpost. Compartimos las nubes de palabras de los modelos menos y más diversos aquí

Wordcloud para o3-mini

Wordcloud para Gemini 2.0 Flash-Lite

Tarea 3: Capacidades de autoevaluación

Por último, nos gustaría ver lo buenos que son los modelos en tareas de edición. Las tareas y los experimentos concretos quedan fuera del alcance de esta comparativa por falta de tiempo, pero algo que constituye una base importante para ello es la capacidad de los LLM para detectar violaciones de las instrucciones de escritura.

Como pudimos evaluar programáticamente si los modelos seguían las instrucciones, también podemos comparar la evaluación real con la evaluación del LLM. Los LLM se utilizan cada vez más como evaluadores, sobre todo para casos en los que no es posible realizar evaluaciones basadas en código. Pero para ser buenos evaluadores, los modelos también tienen que saber detectar los errores antes de corregirlos.

En esta breve sección mostramos cómo se comportan los modelos en esta tarea.

Esto refleja los resultados de investigaciones recientes, especialmente de LLMBAR, una prueba de referencia diseñada específicamente para comprobar hasta qué punto los LLM pueden actuar como evaluadores en tareas de seguimiento de instrucciones. Distingue entre los resultados que superficialmente parecen buenos y los que realmente siguen las instrucciones.

Según el estudio:

Incluso modelos punteros como GPT-4 suelen caer en salidas más pulidas pero incorrectas.
ChatGPT y otros modelos populares obtuvieron peores resultados que el azar en ejemplos adversos.
La estrategia de estímulo es importante: el rendimiento de la reflexión mejora significativamente cuando los modelos reciben estímulos de evaluación estructurados con reglas, métricas o resultados de referencia con los que compararse.

Nuestros experimentos internos coinciden con estas ideas.

¿Por qué los LLM tienen dificultades con las instrucciones negativas y la diversidad de estilos?

Las restricciones negativas son difíciles: Decirle a un modelo que no haga algo es sorprendentemente difícil.

Ejemplo: "Evite saludar al lector con 'Hola'... Evita también empezar con 'Wow' o 'Boom'".
LLM: "Woah, el 14% de los PC despachados en todo el mundo...". → Uy.
Ejemplo: "No uses 'game-changer'".
‍LLM: "La empatía puede cambiar las reglas del juego". → Doble oops.

No se trata sólo de una peculiaridad anecdótica. Investigaciones recientes, como los estudios de Truong et al . (2023) y Jang et al. (2022), investigan específicamente cómo los LLM manejan la negación y las indicaciones negadas.

Sus conclusiones confirman que todos los modelos -desde las arquitecturas GPT hasta las OPT- tienen dificultades para comprender y actuar correctamente ante instrucciones negativas. Quizá lo más contraintuitivo sea que esta investigación revela un fenómeno de escala inversa para la negación. Aunque normalmente esperamos que los modelos más grandes funcionen mejor, tanto Truong et al. como Jang et al. descubrieron que en las tareas que requieren comprender la negación (como identificar lo que algo no es o generar una respuesta incorrecta), los modelos más grandes suelen funcionar peor que los más pequeños.

Esto coincide con nuestros resultados de referencia, en los que observamos altos índices de infracción de las instrucciones de lista negra en varios modelos. Esto indica que el problema va más allá de la simple omisión de una palabra clave; se trata de un procesamiento fundamental de la orden negativa.

La falta de diversidad estilística es un artefacto de RLHF: El estudio de Kirk et al. (2024) descubrió que los modelos afinados con Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) -el proceso muy utilizado para modelos como ChatGPT y Claude- muestran puntuaciones EAD sustancialmente más bajas en comparación con los modelos simplemente afinados con ejemplos.

Esto indica que los modelos RLHF tienden a utilizar una gama más reducida de palabras y frases, especialmente cuando generan múltiples salidas posibles para la misma entrada (menor diversidad por entrada).

Conclusión

Nuestro punto de referencia, contextualizado por investigaciones recientes, ofrece una imagen más clara de las capacidades y limitaciones modernas de los LLM en escritura:

Principales conclusiones:

El lenguaje LLM es real: El uso excesivo de palabras y patrones perjudica la autenticidad.
Las instrucciones negativas y de longitud son difíciles: Especialmente cuando las restricciones son negativas o precisas.
Se sacrifica la diversidad: RLHF, aunque potencia la generalización, reduce de forma demostrable la diversidad de salida (colapso de modo), tanto léxica como estructuralmente (Kirk et al.). La SFT conserva más diversidad, pero puede ser menos robusta en entradas no vistas.
El equilibrio entre generalización y diversidad: parece haber una tensión inherente entre hacer que los modelos generalicen bien (el punto fuerte de RLHF) y hacer que produzcan resultados variados (el punto fuerte de SFT) utilizando los métodos actuales de ajuste fino (Kirk et al.).

En resumen, no hay un claro ganador que domine cada dimensión de la escritura creativa y la edición. Si quieres modelos que suenen menos a IA, echa un vistazo a Claude Sonnet 3.5. Si quieres resultados más variados, un modelo pequeño como Llama 3.1-8B puede ser una buena elección (o echa un vistazo a un modelo que no sea Instruct).

En cualquier caso, no olvidéis hacer las pruebas.

Programe una demostración

Azamat Omuraliev

Ingeniero de IA en Typetone