Self-Consistency Prompting
El Self-Consistency Prompting DEBE implementarse como un proceso estructurado que genera múltiples cadenas de razonamiento independientes y selecciona la respuesta más consistente mediante un mecanismo de agregación. Todo prompt DEBE incluir parámetros de generación diversa y un sistema de votación o consenso.
Ejemplos
✅ Ejemplo Correcto
Objetivo del Prompt
Resolver un problema generando varias cadenas de razonamiento independientes y seleccionando la respuesta más consistente mediante consenso.
Parámetros Recomendados
- Temperature: 0.9
- Top-K: 30
- Top-P: 1.0
- Token Limit: 80
Prompt
Pregunta: ¿Cuál es la capital de Francia?
Instrucciones:
1. Genera 3 cadenas de razonamiento independientes
2. Usa temperatura alta para diversidad
3. Explica el razonamiento en cada cadena
4. Indica la conclusión de cada cadena
Formato de respuesta:
Cadena 1:
[Razonamiento paso a paso]
Conclusión: [Respuesta]
Cadena 2:
[Razonamiento paso a paso]
Conclusión: [Respuesta]
Cadena 3:
[Razonamiento paso a paso]
Conclusión: [Respuesta]
Análisis de consistencia:
- Respuestas: [Lista de respuestas]
- Consenso: [Respuesta más común]
- Confianza: [Porcentaje de acuerdo]
Output
Cadena 1:
Francia es un país europeo cuya capital es París.
Conclusión: París
Cadena 2:
La ciudad más grande y conocida de Francia es París, que es la capital.
Conclusión: París
Cadena 3:
La capital de Francia es París, famosa por la Torre Eiffel.
Conclusión: París
Análisis de consistencia:
- Respuestas: París, París, París
- Consenso: París
- Confianza: 100%
❌ Ejemplo Incorrecto
Objetivo del Prompt
Resolver un problema, pero sin pedir razonamientos múltiples ni análisis de consenso.
Parámetros Recomendados
- Temperature: 0.9
- Top-K: 30
- Top-P: 1.0
- Token Limit: 80
Prompt
Responde: ¿Cuál es la capital de Francia?
Output
París
Justificación
La implementación consistente de Self-Consistency Prompting es necesaria porque:
- Reduce errores por razonamientos inestables
- Mejora la precisión mediante consenso
- Aumenta la confianza en respuestas críticas
- Facilita la detección de inconsistencias
Reglas de Uso
1. Generación de Cadenas
- DEBE generar múltiples cadenas independientes
- DEBE usar parámetros de diversidad
- DEBE seguir el formato Chain of Thought
- DEBE incluir justificación en cada paso
2. Análisis de Consistencia
- DEBE implementar un sistema de votación
- DEBE calcular métricas de confianza
- DEBE identificar patrones de respuesta
- DEBE manejar casos sin consenso claro
3. Selección de Respuesta
- DEBE aplicar criterios de agregación
- DEBE considerar la confianza del consenso
- DEBE documentar el proceso de selección
- DEBE manejar casos de empate
Cuándo Aplicar
- Tareas de razonamiento matemático
- Evaluaciones educativas
- Diagnósticos críticos
- Validación de código
- Tareas con alto riesgo de error
Cuándo Evitar
- Tareas que requieren respuesta inmediata
- Procesamiento de lenguaje natural simple
- Cuando el costo computacional es crítico
- Tareas con respuestas subjetivas
Métricas de Calidad
| Métrica | Descripción | Umbral Mínimo |
|---|---|---|
| Consistencia | Porcentaje de acuerdo | ≥ 80% |
| Precisión | Exactitud de respuestas | ≥ 90% |
| Diversidad | Variedad de razonamientos | ≥ 3 |
| Confianza | Nivel de certeza | ≥ 0.8 |
Referencias Técnicas
- Modelos: GPT-4, Claude, Gemini
- Frameworks: HuggingFace, OpenAI API
- Métricas: Consensus Score, Confidence Level
- Herramientas: TensorFlow, PyTorch