🔁 Self-Consistency Prompting
Self-Consistency Prompting es una técnica que mejora los resultados de modelos de lenguaje mediante la generación de múltiples cadenas de razonamiento y la selección de la respuesta más común o coherente entre ellas.
🧠 ¿Qué es Self-Consistency Prompting?
Es una extensión del método Chain of Thought (CoT). En lugar de pedir una sola cadena de razonamiento, se generan varias (con diferentes seeds o temperatura alta), y luego se elige la respuesta que más se repite o que es más consistente entre todas.
📌 En pocas palabras: “No confíes en un solo razonamiento, hacé una votación entre varios y quedate con el más confiable.”
✅ Ventajas
- Reduce errores causados por razonamientos inestables.
- Mejora la precisión general.
- Refuerza la confianza en tareas críticas.
⚠️ Desventajas
- Requiere más llamadas al modelo (más costo y tiempo).
- No siempre hay una respuesta dominante.
- Necesita lógica de agregación adicional (mayoría, votación, etc).
💡 Casos de uso comunes
- Matemática, lógica, programación.
- Evaluaciones educativas automatizadas.
- Diagnósticos o decisiones sensibles.
- Tareas de razonamiento donde hay alto riesgo de “alucinar”.
🧪 Ejemplos
🟢 Ejemplo fácil – Pregunta lógica
Pregunta: Cuando tenía 5 años, mi primo tenía el doble. Hoy tengo 25. ¿Qué edad tiene mi primo?
Pedimos al modelo que piense paso a paso 5 veces (con temperatura alta):
Cadena 1 → 5 → 10 → diferencia = 5 → ahora: 25 + 5 = 30 ✔️
Cadena 2 → 5 y 10 → hoy 25 → él tiene 30 ✔️
Cadena 3 → lo mismo → 30 ✔️
Cadena 4 → mal cálculo: dice 35 ✖️
Cadena 5 → 25 + 5 = 30 ✔️
Resultado: mayoría coincide en 30 años → **respuesta final: 30**
🟠 Ejemplo intermedio – Clasificación de intención
Input: "Estoy considerando cambiar de banco."
Respuestas posibles:
- Queja
- Consulta
- Amenaza de salida
Se genera el análisis 3 veces:
1. Parece una consulta.
2. Parece una amenaza implícita de salida.
3. No hay agresividad → es una consulta.
Resultado: gana “Consulta” por 2 de 3.
🔴 Ejemplo avanzado – Código de validación
Problema: ¿Este código Python calcula correctamente el factorial de un número?
Se le pide al modelo que revise el código y justifique 4 veces.
- 3 respuestas detectan un error en el caso base.
- 1 dice que está bien.
Resultado final: se considera que el código es incorrecto, y se sugiere una corrección basada en consenso.
🔎 Aplicaciones actuales
- Modelos como Gemini, Claude y GPT-4 bajo técnicas avanzadas de evaluación.
- Sistemas de evaluación educativa.
- Agentes de decisión con mayor fiabilidad.
🧠 Consejo final
- Combiná esta técnica con Chain of Thought.
- Usá temperatura alta (0.8–1.0) para obtener razonamientos diversos.
- Usá lógica de votación, filtro por score, o análisis heurístico.
¿Te animás a algo más poderoso aún? Sigamos con: Tree of Thought Prompting 🌳