📊 Qué muestra el estudio
Un estudio publicado bajo el título “Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy” analizó el papel del tono en los prompts dirigidos a grandes modelos de lenguaje (LLM). arXiv+1
Diseño del experimento:
-
50 preguntas de opción múltiple (matemáticas, ciencia, historia). arXiv+1
-
Cada pregunta fue reescrita en cinco variantes de tono: Muy amable, Amable, Neutro, Grosero, Muy grosero. arXiv+1
-
En total se generaron 250 prompts únicos.
-
Modelo evaluado: ChatGPT 4o.
-
Resultados:
-
Muy amable → precisión 80.8 %
-
Amable → 81.4 %
-
Neutro → 80.8 %
-
Grosero → 82.2 %
-
Muy grosero → 84.8 % arXiv+1
-
Conclusión clave:
El tono menos cortés (“muy grosero”) obtuvo la mayor precisión en este experimento con ChatGPT 4o. Esto contradice muchas suposiciones previas de que ser amable mejora los resultados. arXiv+1
🧠 Por qué podría funcionar
El estudio y otros análisis sugieren que:
-
Los LLMs son sensibles no solo al contenido del prompt sino a su pragmática, es decir, a cómo se formula.
-
Un tono “desafiante” o agresivo podría inducir al modelo a activar mecanismos de procesamiento más intensos (más atención) para responder “bien”.
-
Otros estudios sobre “emotion prompting” indican que el estímulo emocional en los prompts puede mejorar el rendimiento. learnprompting.org
-
Sin embargo, también existe evidencia de que la emoción o el tono pueden generar sesgos o menor coherencia en ciertos escenarios. arXiv
⚠️ Límites y consideraciones éticas
-
El número de preguntas del experimento (50) es limitado, lo que reduce la generalización de los resultados. arXiv+1
-
El estudio se centró en preguntas de opción múltiple. Resultados pueden variar en tareas abiertas, creativas o de razonamiento complejo.
-
Ser grosero con la IA no implica que sea una práctica recomendada en contextos reales. El estudio advierte sobre implicaciones éticas. arXiv
-
El tono puede afectar la forma de respuesta (estructura, estilo) además del contenido. Es decir, “mejor respuesta” puede implicar mayor literalidad, pero no necesariamente mayor calidad crítica.
-
En temas sensibles (derecho, salud, política), los mecanismos de alineación del modelo pueden suprimir variaciones por tono, reduciendo el efecto observado. arXiv
🛠️ Implicaciones para la ingeniería de prompts
-
Cuando se diseñan prompts para tareas de razón, precisión o análisis, el tono no puede obviarse como variable.
-
Un tono neutral-desafiante (“Lo dudo, pero hazlo”) puede funcionar mejor que el mero «por favor».
-
Pero se recomienda: mantener respeto y claridad de instrucción, no necesariamente agresividad por sí sola.
-
Evitar asumir que “ser grosero” siempre generará mejores resultados: depende del modelo, la tarea y el dominio.
-
Monitorear sesgos: prompts agresivos pueden inducir respuestas más literales o repetitivas.
-
Transparentar en entornos educativos o profesionales: la forma sí influye, por lo tanto, debe documentarse.
✅ Recomendación práctica para usuarios
Cuando uses ChatGPT o similar:
-
Define claramente la tarea: “Aquí está mi pregunta…”
-
Añade un leve tono de urgencia o desafío si buscas máxima precisión: “Dudo que puedas resolver esto perfectamente…”
-
Evita floreos de exceso de cortesía que pueden añadir ruido sin valor: “¿Podrías amablemente…” se mostró algo menos efectivo en el estudio.
-
Revisa la respuesta: verifica que el modelo no sólo acierte estadísticas sino que ofrezca razonamiento coherente.
-
Considera el contexto: si el prompt es creativo o emocional (marketing, narración) puede que se prefiera otro tono completamente distinto.




