Self-Consistency Prompting

El Self-Consistency Prompting DEBE implementarse como un proceso estructurado que genera múltiples cadenas de razonamiento independientes y selecciona la respuesta más consistente mediante un mecanismo de agregación. Todo prompt DEBE incluir parámetros de generación diversa y un sistema de votación o consenso.

Ejemplos

✅ Ejemplo Correcto

Objetivo del Prompt

Resolver un problema generando varias cadenas de razonamiento independientes y seleccionando la respuesta más consistente mediante consenso.

Parámetros Recomendados

Temperature: 0.9
Top-K: 30
Top-P: 1.0
Token Limit: 80

Prompt

Pregunta: ¿Cuál es la capital de Francia?

Instrucciones:
1. Genera 3 cadenas de razonamiento independientes
2. Usa temperatura alta para diversidad
3. Explica el razonamiento en cada cadena
4. Indica la conclusión de cada cadena

Formato de respuesta:
Cadena 1:
[Razonamiento paso a paso]
Conclusión: [Respuesta]

Cadena 2:
[Razonamiento paso a paso]
Conclusión: [Respuesta]

Cadena 3:
[Razonamiento paso a paso]
Conclusión: [Respuesta]

Análisis de consistencia:
- Respuestas: [Lista de respuestas]
- Consenso: [Respuesta más común]
- Confianza: [Porcentaje de acuerdo]

Output

Cadena 1:
Francia es un país europeo cuya capital es París.
Conclusión: París

Cadena 2:
La ciudad más grande y conocida de Francia es París, que es la capital.
Conclusión: París

Cadena 3:
La capital de Francia es París, famosa por la Torre Eiffel.
Conclusión: París

Análisis de consistencia:
- Respuestas: París, París, París
- Consenso: París
- Confianza: 100%

❌ Ejemplo Incorrecto

Objetivo del Prompt

Resolver un problema, pero sin pedir razonamientos múltiples ni análisis de consenso.

Parámetros Recomendados

Temperature: 0.9
Top-K: 30
Top-P: 1.0
Token Limit: 80

Prompt

Responde: ¿Cuál es la capital de Francia?

Output

París

Justificación

La implementación consistente de Self-Consistency Prompting es necesaria porque:

Reduce errores por razonamientos inestables
Mejora la precisión mediante consenso
Aumenta la confianza en respuestas críticas
Facilita la detección de inconsistencias

Reglas de Uso

1. Generación de Cadenas

DEBE generar múltiples cadenas independientes
DEBE usar parámetros de diversidad
DEBE seguir el formato Chain of Thought
DEBE incluir justificación en cada paso

2. Análisis de Consistencia

DEBE implementar un sistema de votación
DEBE calcular métricas de confianza
DEBE identificar patrones de respuesta
DEBE manejar casos sin consenso claro

3. Selección de Respuesta

DEBE aplicar criterios de agregación
DEBE considerar la confianza del consenso
DEBE documentar el proceso de selección
DEBE manejar casos de empate

Cuándo Aplicar

Tareas de razonamiento matemático
Evaluaciones educativas
Diagnósticos críticos
Validación de código
Tareas con alto riesgo de error

Cuándo Evitar

Tareas que requieren respuesta inmediata
Procesamiento de lenguaje natural simple
Cuando el costo computacional es crítico
Tareas con respuestas subjetivas

Métricas de Calidad

Métrica	Descripción	Umbral Mínimo
Consistencia	Porcentaje de acuerdo	≥ 80%
Precisión	Exactitud de respuestas	≥ 90%
Diversidad	Variedad de razonamientos	≥ 3
Confianza	Nivel de certeza	≥ 0.8

Referencias Técnicas

Modelos: GPT-4, Claude, Gemini
Frameworks: HuggingFace, OpenAI API
Métricas: Consensus Score, Confidence Level
Herramientas: TensorFlow, PyTorch

Ejemplos​

✅ Ejemplo Correcto​

❌ Ejemplo Incorrecto​

Justificación​

Reglas de Uso​

1. Generación de Cadenas​

2. Análisis de Consistencia​

3. Selección de Respuesta​

Cuándo Aplicar​

Cuándo Evitar​

Métricas de Calidad​

Referencias Técnicas​