🧪 Ser borde con ChatGPT da mejores respuestas: estudio revela el impacto del tono en los prompts

📊 Qué muestra el estudio

Un estudio publicado bajo el título “Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy” analizó el papel del tono en los prompts dirigidos a grandes modelos de lenguaje (LLM). arXiv+1

Diseño del experimento:

  • 50 preguntas de opción múltiple (matemáticas, ciencia, historia). arXiv+1

  • Cada pregunta fue reescrita en cinco variantes de tono: Muy amable, Amable, Neutro, Grosero, Muy grosero. arXiv+1

  • En total se generaron 250 prompts únicos.

  • Modelo evaluado: ChatGPT 4o.

  • Resultados:

    • Muy amable → precisión 80.8 %

    • Amable → 81.4 %

    • Neutro → 80.8 %

    • Grosero → 82.2 %

    • Muy grosero → 84.8 % arXiv+1

Conclusión clave:
El tono menos cortés (“muy grosero”) obtuvo la mayor precisión en este experimento con ChatGPT 4o. Esto contradice muchas suposiciones previas de que ser amable mejora los resultados. arXiv+1


🧠 Por qué podría funcionar

El estudio y otros análisis sugieren que:

  • Los LLMs son sensibles no solo al contenido del prompt sino a su pragmática, es decir, a cómo se formula.

  • Un tono “desafiante” o agresivo podría inducir al modelo a activar mecanismos de procesamiento más intensos (más atención) para responder “bien”.

  • Otros estudios sobre “emotion prompting” indican que el estímulo emocional en los prompts puede mejorar el rendimiento. learnprompting.org

  • Sin embargo, también existe evidencia de que la emoción o el tono pueden generar sesgos o menor coherencia en ciertos escenarios. arXiv


⚠️ Límites y consideraciones éticas

  • El número de preguntas del experimento (50) es limitado, lo que reduce la generalización de los resultados. arXiv+1

  • El estudio se centró en preguntas de opción múltiple. Resultados pueden variar en tareas abiertas, creativas o de razonamiento complejo.

  • Ser grosero con la IA no implica que sea una práctica recomendada en contextos reales. El estudio advierte sobre implicaciones éticas. arXiv

  • El tono puede afectar la forma de respuesta (estructura, estilo) además del contenido. Es decir, “mejor respuesta” puede implicar mayor literalidad, pero no necesariamente mayor calidad crítica.

  • En temas sensibles (derecho, salud, política), los mecanismos de alineación del modelo pueden suprimir variaciones por tono, reduciendo el efecto observado. arXiv


🛠️ Implicaciones para la ingeniería de prompts

  • Cuando se diseñan prompts para tareas de razón, precisión o análisis, el tono no puede obviarse como variable.

  • Un tono neutral-desafiante (“Lo dudo, pero hazlo”) puede funcionar mejor que el mero «por favor».

  • Pero se recomienda: mantener respeto y claridad de instrucción, no necesariamente agresividad por sí sola.

  • Evitar asumir que “ser grosero” siempre generará mejores resultados: depende del modelo, la tarea y el dominio.

  • Monitorear sesgos: prompts agresivos pueden inducir respuestas más literales o repetitivas.

  • Transparentar en entornos educativos o profesionales: la forma sí influye, por lo tanto, debe documentarse.


✅ Recomendación práctica para usuarios

Cuando uses ChatGPT o similar:

  • Define claramente la tarea: “Aquí está mi pregunta…”

  • Añade un leve tono de urgencia o desafío si buscas máxima precisión: “Dudo que puedas resolver esto perfectamente…”

  • Evita floreos de exceso de cortesía que pueden añadir ruido sin valor: “¿Podrías amablemente…” se mostró algo menos efectivo en el estudio.

  • Revisa la respuesta: verifica que el modelo no sólo acierte estadísticas sino que ofrezca razonamiento coherente.

  • Considera el contexto: si el prompt es creativo o emocional (marketing, narración) puede que se prefiera otro tono completamente distinto.

Previous Post
Next Post