Saltar al contenido principal

Self-Consistency Prompting

El Self-Consistency Prompting DEBE implementarse como un proceso estructurado que genera múltiples cadenas de razonamiento independientes y selecciona la respuesta más consistente mediante un mecanismo de agregación. Todo prompt DEBE incluir parámetros de generación diversa y un sistema de votación o consenso.

Ejemplos

✅ Ejemplo Correcto

Objetivo del Prompt

Resolver un problema generando varias cadenas de razonamiento independientes y seleccionando la respuesta más consistente mediante consenso.

Parámetros Recomendados

  • Temperature: 0.9
  • Top-K: 30
  • Top-P: 1.0
  • Token Limit: 80

Prompt

Pregunta: ¿Cuál es la capital de Francia?

Instrucciones:
1. Genera 3 cadenas de razonamiento independientes
2. Usa temperatura alta para diversidad
3. Explica el razonamiento en cada cadena
4. Indica la conclusión de cada cadena

Formato de respuesta:
Cadena 1:
[Razonamiento paso a paso]
Conclusión: [Respuesta]

Cadena 2:
[Razonamiento paso a paso]
Conclusión: [Respuesta]

Cadena 3:
[Razonamiento paso a paso]
Conclusión: [Respuesta]

Análisis de consistencia:
- Respuestas: [Lista de respuestas]
- Consenso: [Respuesta más común]
- Confianza: [Porcentaje de acuerdo]

Output

Cadena 1:
Francia es un país europeo cuya capital es París.
Conclusión: París

Cadena 2:
La ciudad más grande y conocida de Francia es París, que es la capital.
Conclusión: París

Cadena 3:
La capital de Francia es París, famosa por la Torre Eiffel.
Conclusión: París

Análisis de consistencia:
- Respuestas: París, París, París
- Consenso: París
- Confianza: 100%

❌ Ejemplo Incorrecto

Objetivo del Prompt

Resolver un problema, pero sin pedir razonamientos múltiples ni análisis de consenso.

Parámetros Recomendados

  • Temperature: 0.9
  • Top-K: 30
  • Top-P: 1.0
  • Token Limit: 80

Prompt

Responde: ¿Cuál es la capital de Francia?

Output

París

Justificación

La implementación consistente de Self-Consistency Prompting es necesaria porque:

  1. Reduce errores por razonamientos inestables
  2. Mejora la precisión mediante consenso
  3. Aumenta la confianza en respuestas críticas
  4. Facilita la detección de inconsistencias

Reglas de Uso

1. Generación de Cadenas

  • DEBE generar múltiples cadenas independientes
  • DEBE usar parámetros de diversidad
  • DEBE seguir el formato Chain of Thought
  • DEBE incluir justificación en cada paso

2. Análisis de Consistencia

  • DEBE implementar un sistema de votación
  • DEBE calcular métricas de confianza
  • DEBE identificar patrones de respuesta
  • DEBE manejar casos sin consenso claro

3. Selección de Respuesta

  • DEBE aplicar criterios de agregación
  • DEBE considerar la confianza del consenso
  • DEBE documentar el proceso de selección
  • DEBE manejar casos de empate

Cuándo Aplicar

  1. Tareas de razonamiento matemático
  2. Evaluaciones educativas
  3. Diagnósticos críticos
  4. Validación de código
  5. Tareas con alto riesgo de error

Cuándo Evitar

  1. Tareas que requieren respuesta inmediata
  2. Procesamiento de lenguaje natural simple
  3. Cuando el costo computacional es crítico
  4. Tareas con respuestas subjetivas

Métricas de Calidad

MétricaDescripciónUmbral Mínimo
ConsistenciaPorcentaje de acuerdo≥ 80%
PrecisiónExactitud de respuestas≥ 90%
DiversidadVariedad de razonamientos≥ 3
ConfianzaNivel de certeza≥ 0.8

Referencias Técnicas

  • Modelos: GPT-4, Claude, Gemini
  • Frameworks: HuggingFace, OpenAI API
  • Métricas: Consensus Score, Confidence Level
  • Herramientas: TensorFlow, PyTorch