Saltar al contenido principal

Automatic Prompt Engineering (APE)

El Automatic Prompt Engineering (APE) DEBE implementarse como un proceso sistemático y controlado de generación, evaluación y selección automática de prompts mediante modelos de lenguaje. El sistema DEBE incluir mecanismos de evaluación objetiva y filtros de control para garantizar la calidad y efectividad de los prompts generados.

Ejemplos

✅ Ejemplo Correcto

Objetivo del Prompt

Generar, evaluar y seleccionar automáticamente el mejor prompt para una tarea, usando criterios objetivos y filtros de control.

Parámetros Recomendados

  • Temperature: 0.6
  • Top-K: 20
  • Top-P: 0.9
  • Token Limit: 80

Prompt

Tarea: Redactar un resumen de un artículo científico.

Proceso APE:
1. Generar hasta 5 variantes de prompt con restricciones de claridad, precisión y concisión.
2. Evaluar cada prompt usando métricas objetivas (BLEU, ROUGE) y casos de prueba.
3. Seleccionar el prompt con mejor puntuación (umbral mínimo: 0.8, longitud máxima: 200 tokens).
4. Documentar el proceso y justificar la selección.

Output

Prompt seleccionado: "Resume el siguiente artículo científico en 100 palabras, resaltando los hallazgos principales y evitando tecnicismos innecesarios."
Justificación: Este prompt obtuvo la mayor puntuación en claridad y precisión según las métricas aplicadas.

❌ Ejemplo Incorrecto

Objetivo del Prompt

Generar prompts sin control ni evaluación objetiva.

Parámetros Recomendados

  • Temperature: 0.9
  • Top-K: 50
  • Top-P: 1.0
  • Token Limit: 80

Prompt

Redacta un resumen de este artículo.

Output

Resumen: El artículo trata de varios temas importantes.

Justificación

La implementación consistente de APE es necesaria porque:

  1. Garantiza la reproducibilidad y consistencia en la generación de prompts
  2. Previene la generación de prompts ineficaces o redundantes
  3. Permite la escalabilidad y automatización controlada
  4. Facilita la evaluación objetiva del rendimiento

Reglas de Uso

1. Generación de Prompts

  • DEBE limitarse el espacio de búsqueda mediante restricciones explícitas
  • DEBE incluirse un número máximo de variaciones por tarea
  • DEBE documentarse el proceso de generación

2. Evaluación

  • DEBE implementarse un sistema de métricas objetivas
  • DEBE incluirse un conjunto de casos de prueba representativos
  • DEBE establecerse un umbral mínimo de rendimiento

3. Selección

  • DEBE basarse en criterios objetivos y medibles
  • DEBE incluir validación humana en casos críticos
  • DEBE documentarse la justificación de la selección

Cuándo Aplicar

  1. Optimización automatizada de prompts en producción
  2. Generación masiva de prompts para múltiples contextos
  3. Fine-tuning de sistemas sin intervención humana
  4. Evaluación sistemática de rendimiento de prompts

Cuándo Evitar

  1. Tareas que requieren control humano directo
  2. Contextos con requisitos específicos no cuantificables
  3. Sistemas con restricciones de recursos computacionales
  4. Casos que requieren interpretación subjetiva

Métricas de Evaluación

MétricaDescripciónUmbral Mínimo
PrecisiónExactitud de las respuestas≥ 0.85
ConsistenciaEstabilidad en resultados≥ 0.90
EficienciaTiempo de procesamiento≤ 2s
ClaridadLegibilidad del prompt≥ 0.80

Referencias Técnicas

  • Modelos de evaluación: BLEU, ROUGE, BERTScore
  • Frameworks: PromptBazaar, PromptPG, PromptLayer
  • Métricas de rendimiento: precisión, recall, F1-score