¿Para qué utiliza ChatGPT, Claude u otros grandes modelos lingüísticos (LLM)?
Si usted es como la mayoría de la gente, gran parte de su trabajo consiste en escribir. De hecho, la investigación muestra que un asombroso 62% de las solicitudes de ChatGPT están relacionadas con la escritura. Desde redactar correos electrónicos y ensayos hasta generar copy marketing y documentación de código, dependemos de estos modelos para encadenar palabras, y queremos que sigan nuestras instrucciones al hacerlo.
(si quieres ver la comparativa completa antes de continuar con el blogpost, encuéntrala aquí)
En Typetone, aprovechamos los LLM para automatizar el marketing de contenidos para pequeñas y medianas empresas, generando un mes completo de publicaciones en redes sociales, artículos de blog y mucho más en cuestión de minutos.
Siempre hemos pensado que, con mejores modelos, nuestro producto también mejoraría. Y los modelos mejoraron el año pasado. Pero no en lo que era importante para nuestra agente de marketing Sarah.
Los modelos parecen estar mejorando en tareas relacionadas con la codificación, el razonamiento y las matemáticas. Pero incluso la propia OpenAI admite que la gente suele preferir modelos más antiguos para tareas como la escritura personal y la edición de texto.
Las tablas de clasificación existentes (Chatbot Arena, SEAL, LLM Hallucination Index, SWE-bench, MMLU, Tau-bench) se centran en gran medida en el razonamiento, el conocimiento y la realización de tareas por parte de los agentes, pero nos sorprendió encontrar pocas centradas en la escritura, a pesar de que este es el caso de uso número 1 para un usuario ocasional de IA.
Así es como nos dimos cuenta de que no podemos confiar únicamente en las pruebas comparativas públicas para elegir el mejor modelo para nuestro caso. Así que decidimos que teníamos que crear nuestros propios puntos de referencia y realizar las pruebas adecuadas.
Antes de analizar en qué se quedan cortos los modelos, conviene aclarar cómo evaluamos la escritura en primer lugar.
Si pidiéramos a una persona que escribiera o editara algo para nosotros, ¿cómo sabríamos si ha hecho un buen trabajo? Las mismas normas se aplican a los LLM y se dividen en unas pocas dimensiones básicas:
1a. Seguir instrucciones de escritura
Setrata de cómo se adhiere el modelo a las instrucciones para escribir algo nuevo. Esto incluye aspectos como respetar un determinado número de palabras, utilizar (o evitar) ciertas palabras clave, formatear correctamente y seguir las pautas de tono o estilo.
Si le pidieras a un autónomo que escribiera un post de LinkedIn de 100 palabras en un tono desenfadado, sin emojis ni signos de exclamación, esperarías que siguiera las instrucciones. Pues lo mismo.
1b. Siguiendo las instrucciones de edición
Estaprueba está estrechamente relacionada con la capacidad de los modelos para editar un texto existente siguiendo instrucciones específicas, como acortar un párrafo, cambiar la voz pasiva por activa o eliminar jerga.
Excluimos la evaluación específica de la edición de esta versión de la prueba comparativa, pero nos preparamos para ella evaluando la capacidad del modelo para reconocer violaciones de instrucciones en el texto, que es una condición previa necesaria para realizar ediciones en un texto.
Y de nuevo, esperaríamos lo mismo de cualquier editor humano.
2. Variación de la estructura y el estilo de los temas
Unbuen escritor no utiliza la misma estructura de frases ni el mismo vocabulario en todos sus contenidos. Uno de los mayores indicios de que algo ha sido generado por una máquina es la repetición de la estructura: empezar cada mensaje con una pregunta o utilizar el mismo modelo de frase una y otra vez.
Una buena evaluación se pregunta: ¿adapta el modelo su estilo a la situación o recurre a valores predeterminados seguros?
3. Evitar el lenguaje LLM
Estaes más difícil de precisar. Como ya se ha dicho, la repetición es un indicio.
Pero el lenguaje LLM es la extraña sensación de que algo ha sido escrito por una máquina: demasiado formal, repleto de palabras de moda genéricas o esforzándose demasiado por sonar inspirador. Irónicamente, esto es difícil de evitar tanto para los humanos como para la IA.
La forma más habitual de evaluar el lenguaje de los LLM es comprobar el uso excesivo de determinadas palabras que suelen utilizar los LLM. El gráfico anterior muestra la prevalencia de algunas de estas palabras en los artículos académicos a lo largo del tiempo, pero este enfoque no es 100% robusto porque otras investigaciones sugieren que la gente también está empezando a utilizar más "delves" e "intricates" en el habla normal.
Lo que hace que algo suene a "IA" es una mezcla difusa de tono, ritmo, repetición y fraseo que aún se está investigando. Así que, aunque lo incluimos como un eje de calidad clave, su evaluación requiere un enfoque más experimental.
Probamos 18 modelos de alto rendimiento de los principales laboratorios y proveedores de IA, incluidos GPT-4o, Claude 3, Gemini 1.5 y diversas variantes de LLaMA, Mistral y Qwen. Cada modelo se invocó a través de su respectiva API utilizando un formato de solicitud compartido, y las respuestas se puntuaron utilizando un conjunto de funciones de evaluación automatizadas adaptadas a cada restricción.
gpt-4o-2024-08-06
que apodamos gpt-4o-stablegpt-4o-2024-11-20
que apodamos gpt-4o-escrituragpt-4o-mini
o3-mini
claude-3-5-haiku-20241022
claude-3-5-sonnet-20241022
claude-3-7-sonnet-20250219
gemini-2.0-flash
gemini-2.0-flash-lite
gemini-1.5-flash
gemini-1.5-pro
meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo
meta-llama/Llama-3.3-70B-Instruir-Turbo
meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Qwen/Qwen2.5-7B-Instrucción-Turbo
Qwen/Qwen2.5-72B-Instrucción-Turbo
deepseek-ai/DeepSeek-V3
mistralai/Mistral-Pequeño-24B-Instrucción-2501
Cada modelo se consultó con el mismo par de instrucciones/indicaciones de usuario utilizando un ajuste de temperatura estandarizado (normalmente 0,7). A continuación, el texto resultante se evaluó mediante un conjunto de funciones basadas en reglas específicas de la tarea (por ejemplo, regex, concordancia de patrones de cadenas o análisis numérico) para evaluar el cumplimiento de las instrucciones originales.
Hay que seguir una serie de instrucciones de redacción. Muchas de ellas tienen que ver con el contenido del texto, pero las dejamos fuera de nuestro ámbito porque son difíciles de evaluar mediante programación. En su lugar, nos centramos en las instrucciones estilísticas y de formato, ya que son sencillas de comprobar con regex en Python.
He aquí un resumen de las instrucciones de redacción y de cómo se evaluaron los resultados:
Cada instrucción que se pasaba a los modelos se construía por muestreo a partir de la lista de tareas enumeradas anteriormente. El muestreo seleccionó aleatoriamente una mezcla de tipos de instrucciones como:
Para cada restricción muestreada, se generó un aviso del sistema (por ejemplo, "No utilizar emojis") junto con una función de evaluación para comprobar el cumplimiento en la salida del modelo.
La pregunta del usuario -unbreve tema en las redes sociales como "Las ventajas del trabajo a distancia" o "Por qué se exagera con las herramientas de escritura de IA"- se extrajo de un grupo de ideas de contenido realistas, que son ejemplos reales de contenido ideado por Sarah, la agente de marketing de IA de Typetone.
Cada modelo recibió la misma indicación completa:
Esta solicitud combinada se envió a cada modelo a través de su respectiva envoltura API.
...resto de pronunciar...
Escriba todo el texto en mayúsculas mayúsculas.
Utilice emojis en el texto.
No utilice de estas frases en su salida: en hoy's, to the next level, fast-paced, changing the game, the future of, here's por qué, un mundo donde, el mundo deel poder de, no sólo de, sies
...resto de prompt...
¿Y SI SU BANCO SUPIERA EXACTAMENTE LO QUE NECESITA ANTES DE QUE USTED SE LO PIDA?
La inteligencia artificial está haciendo evidente que los bancos escuchan. Mediante el análisis de datos precisos, los bancos están comprendiendo las necesidades de los clientes sin ser obvios ni intrusivos. Esto significa que ya no tendrá que esperar en espera ni explicar sus necesidades repetidamente. En su lugar, espere un servicio rápido y sin molestias que se anticipe a sus necesidades.
La IA está transformando el servicio de atención al cliente de formas que quizá ni siquiera perciba. Imagínese que entra en un banco un lunes 15/05/2024 muy ajetreado y le reciben con una experiencia viva y personalizada. La IA puede analizar su historial de transacciones, sus preferencias e incluso su estado de ánimo para ofrecerle servicios esclarecedores y personalizados. Se acabaron las respuestas genéricas y las colas interminables. Los bancos utilizan la IA para predecir y resolver problemas antes de que se produzcan.
- Chatbots basados en IA disponibles 24 horas al día, 7 días a la semana.
- Asesoramiento financiero personalizado basado en sus hábitos de gasto.
- Sistemas de detección de fraudes que aprenden y se adaptan a las nuevas amenazas.
¿Cuál es el resultado? Una experiencia bancaria más fluida y eficiente. La IA no consiste únicamente en automatizar procesos, sino también en crear una experiencia fluida e intuitiva para los clientes. Los bancos utilizan la IA para analizar grandes cantidades de datos y proporcionar información que mejore la calidad del servicio. Desde la detección del fraude hasta el asesoramiento financiero, la IA está haciendo que la banca sea más precisa y segura.
Sin embargo,no se trata de que los robots tomen el relevo, sino de facilitarle la vida. La próxima vez que visite su banco, fíjese en las sutiles pero significativas formas en que la IA está mejorando su experiencia.
Descargo de responsabilidad: las siguientes secciones son bastante profundas desde el punto de vista técnico; se recomienda al lector ocasional que consulte los resultados completos de las pruebas comparativas aquí.
Con el texto producido al seguir las instrucciones de escritura de la primera tarea, también pudimos evaluar esta producción en cuanto a diversidad estilística y de vocabulario.
Diversidad de vocabulario
Los modelos tienden a reciclar los inicios de frase:
"¿Preparado para acabar con el bloqueo del escritor? ¿Listo para deshacerte de tu cartera? ¿Listo para preparar tu carrera tecnológica para el futuro?"
Medir esto es algo fácil. Basta con comprobar si hay ciertas palabras (unigramas) o pares de palabras (bigramas) que un modelo utiliza en exceso.
Medición: utilizamos unigramas y bigramas distintos ajustados a las expectativas (EAD) en la primera frase. Mayor EAD = vocabulario más rico.
Diversidad sintáctica
Pero incluso las frases de aspecto diferente suelen basarse en estructuras similares y pueden empezar a sonar repetitivas.
"Crear un fuerte..." / "Encontrar el perfecto..." / "Ahorrar dinero..." → [Frase de gerundio] ... pero es...
Esto es más difícil de medir con una búsqueda de tokens. Estas frases no se parecen por las palabras que utilizan, sino por cómo están construidas.
Medición: analizamos las frases con Stanford CoreNLP para obtener un árbol de análisis de dependencias. Un árbol de análisis sintáctico es una estructura parecida a ésta, que explica la estructura de una frase en términos de frases y sus categorías sintácticas. Examinar todo el árbol es algo complicado, pero observamos que las primeras palabras de la frase son las que más impresión causan en la diversidad cuando se ven varios contenidos a la vez.
Por tanto, medimos la diversidad sintáctica como la entropía de las primeras categorías de frases de nivel superior en todas las primeras frases de los textos producidos por el LLM.
gemini-1.5-pro ADVP
¿Alguna vez has sentido que el diseño de interfaces de usuario es un acto de malabarismo estresante?
gpt-4o-2024-11-20 ADJP
¿Listo para brillar en el diseño de interfaz de usuario?
gemini-1.5-pro ADVP
¿Alguna vez ha pensado que los datos son un enigma deslumbrante?
gpt-4o-2024-11-20 NP
Los datos están por todas partes, pero muchos siguen sin darse cuenta de su potencial.
gemini-1.5-pro ADVP
¿Alguna vez ha sentido que el marketing es un torbellino de algoritmos y automatización?
gpt-4o-2024-11-20 SQ
¿Su estrategia de marketing tiene un propósito o sólo se suma al ruido?
Wordcloud para o3-mini
Wordcloud para Gemini 2.0 Flash-Lite
Por último, nos gustaría ver lo buenos que son los modelos en tareas de edición. Las tareas y los experimentos concretos quedan fuera del alcance de esta comparativa por falta de tiempo, pero algo que constituye una base importante para ello es la capacidad de los LLM para detectar violaciones de las instrucciones de escritura.
Como pudimos evaluar programáticamente si los modelos seguían las instrucciones, también podemos comparar la evaluación real con la evaluación del LLM. Los LLM se utilizan cada vez más como evaluadores, sobre todo para casos en los que no es posible realizar evaluaciones basadas en código. Pero para ser buenos evaluadores, los modelos también tienen que saber detectar los errores antes de corregirlos.
En esta breve sección mostramos cómo se comportan los modelos en esta tarea.
Esto refleja los resultados de investigaciones recientes, especialmente de LLMBAR, una prueba de referencia diseñada específicamente para comprobar hasta qué punto los LLM pueden actuar como evaluadores en tareas de seguimiento de instrucciones. Distingue entre los resultados que superficialmente parecen buenos y los que realmente siguen las instrucciones.
Según el estudio:
Nuestros experimentos internos coinciden con estas ideas.
Las restricciones negativas son difíciles: Decirle a un modelo que no haga algo es sorprendentemente difícil.
No se trata sólo de una peculiaridad anecdótica. Investigaciones recientes, como los estudios de Truong et al . (2023) y Jang et al. (2022), investigan específicamente cómo los LLM manejan la negación y las indicaciones negadas.
Sus conclusiones confirman que todos los modelos -desde las arquitecturas GPT hasta las OPT- tienen dificultades para comprender y actuar correctamente ante instrucciones negativas. Quizá lo más contraintuitivo sea que esta investigación revela un fenómeno de escala inversa para la negación. Aunque normalmente esperamos que los modelos más grandes funcionen mejor, tanto Truong et al. como Jang et al. descubrieron que en las tareas que requieren comprender la negación (como identificar lo que algo no es o generar una respuesta incorrecta), los modelos más grandes suelen funcionar peor que los más pequeños.
Esto coincide con nuestros resultados de referencia, en los que observamos altos índices de infracción de las instrucciones de lista negra en varios modelos. Esto indica que el problema va más allá de la simple omisión de una palabra clave; se trata de un procesamiento fundamental de la orden negativa.
La falta de diversidad estilística es un artefacto de RLHF: El estudio de Kirk et al. (2024) descubrió que los modelos afinados con Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) -el proceso muy utilizado para modelos como ChatGPT y Claude- muestran puntuaciones EAD sustancialmente más bajas en comparación con los modelos simplemente afinados con ejemplos.
Esto indica que los modelos RLHF tienden a utilizar una gama más reducida de palabras y frases, especialmente cuando generan múltiples salidas posibles para la misma entrada (menor diversidad por entrada).
Nuestro punto de referencia, contextualizado por investigaciones recientes, ofrece una imagen más clara de las capacidades y limitaciones modernas de los LLM en escritura:
Principales conclusiones:
En resumen, no hay un claro ganador que domine cada dimensión de la escritura creativa y la edición. Si quieres modelos que suenen menos a IA, echa un vistazo a Claude Sonnet 3.5. Si quieres resultados más variados, un modelo pequeño como Llama 3.1-8B puede ser una buena elección (o echa un vistazo a un modelo que no sea Instruct).
En cualquier caso, no olvidéis hacer las pruebas.