Saltar al contenido principal

🔁 Self-Consistency Prompting

Self-Consistency Prompting es una técnica que mejora los resultados de modelos de lenguaje mediante la generación de múltiples cadenas de razonamiento y la selección de la respuesta más común o coherente entre ellas.


🧠 ¿Qué es Self-Consistency Prompting?

Es una extensión del método Chain of Thought (CoT). En lugar de pedir una sola cadena de razonamiento, se generan varias (con diferentes seeds o temperatura alta), y luego se elige la respuesta que más se repite o que es más consistente entre todas.

📌 En pocas palabras: “No confíes en un solo razonamiento, hacé una votación entre varios y quedate con el más confiable.”


✅ Ventajas

  • Reduce errores causados por razonamientos inestables.
  • Mejora la precisión general.
  • Refuerza la confianza en tareas críticas.

⚠️ Desventajas

  • Requiere más llamadas al modelo (más costo y tiempo).
  • No siempre hay una respuesta dominante.
  • Necesita lógica de agregación adicional (mayoría, votación, etc).

💡 Casos de uso comunes

  • Matemática, lógica, programación.
  • Evaluaciones educativas automatizadas.
  • Diagnósticos o decisiones sensibles.
  • Tareas de razonamiento donde hay alto riesgo de “alucinar”.

🧪 Ejemplos

🟢 Ejemplo fácil – Pregunta lógica

Pregunta: Cuando tenía 5 años, mi primo tenía el doble. Hoy tengo 25. ¿Qué edad tiene mi primo?

Pedimos al modelo que piense paso a paso 5 veces (con temperatura alta):

Cadena 1 → 5 → 10 → diferencia = 5 → ahora: 25 + 5 = 30 ✔️
Cadena 2 → 5 y 10 → hoy 25 → él tiene 30 ✔️
Cadena 3 → lo mismo → 30 ✔️
Cadena 4 → mal cálculo: dice 35 ✖️
Cadena 5 → 25 + 5 = 30 ✔️

Resultado: mayoría coincide en 30 años → **respuesta final: 30**

🟠 Ejemplo intermedio – Clasificación de intención

Input: "Estoy considerando cambiar de banco."

Respuestas posibles:
- Queja
- Consulta
- Amenaza de salida

Se genera el análisis 3 veces:
1. Parece una consulta.
2. Parece una amenaza implícita de salida.
3. No hay agresividad → es una consulta.

Resultado: gana “Consulta” por 2 de 3.

🔴 Ejemplo avanzado – Código de validación

Problema: ¿Este código Python calcula correctamente el factorial de un número?

Se le pide al modelo que revise el código y justifique 4 veces.
- 3 respuestas detectan un error en el caso base.
- 1 dice que está bien.

Resultado final: se considera que el código es incorrecto, y se sugiere una corrección basada en consenso.

🔎 Aplicaciones actuales

  • Modelos como Gemini, Claude y GPT-4 bajo técnicas avanzadas de evaluación.
  • Sistemas de evaluación educativa.
  • Agentes de decisión con mayor fiabilidad.

🧠 Consejo final

  • Combiná esta técnica con Chain of Thought.
  • Usá temperatura alta (0.8–1.0) para obtener razonamientos diversos.
  • Usá lógica de votación, filtro por score, o análisis heurístico.

¿Te animás a algo más poderoso aún? Sigamos con: Tree of Thought Prompting 🌳