Automatic Prompt Engineering (APE)
El Automatic Prompt Engineering (APE) DEBE implementarse como un proceso sistemático y controlado de generación, evaluación y selección automática de prompts mediante modelos de lenguaje. El sistema DEBE incluir mecanismos de evaluación objetiva y filtros de control para garantizar la calidad y efectividad de los prompts generados.
Ejemplos
✅ Ejemplo Correcto
Objetivo del Prompt
Generar, evaluar y seleccionar automáticamente el mejor prompt para una tarea, usando criterios objetivos y filtros de control.
Parámetros Recomendados
- Temperature: 0.6
- Top-K: 20
- Top-P: 0.9
- Token Limit: 80
Prompt
Tarea: Redactar un resumen de un artículo científico.
Proceso APE:
1. Generar hasta 5 variantes de prompt con restricciones de claridad, precisión y concisión.
2. Evaluar cada prompt usando métricas objetivas (BLEU, ROUGE) y casos de prueba.
3. Seleccionar el prompt con mejor puntuación (umbral mínimo: 0.8, longitud máxima: 200 tokens).
4. Documentar el proceso y justificar la selección.
Output
Prompt seleccionado: "Resume el siguiente artículo científico en 100 palabras, resaltando los hallazgos principales y evitando tecnicismos innecesarios."
Justificación: Este prompt obtuvo la mayor puntuación en claridad y precisión según las métricas aplicadas.
❌ Ejemplo Incorrecto
Objetivo del Prompt
Generar prompts sin control ni evaluación objetiva.
Parámetros Recomendados
- Temperature: 0.9
- Top-K: 50
- Top-P: 1.0
- Token Limit: 80
Prompt
Redacta un resumen de este artículo.
Output
Resumen: El artículo trata de varios temas importantes.
Justificación
La implementación consistente de APE es necesaria porque:
- Garantiza la reproducibilidad y consistencia en la generación de prompts
- Previene la generación de prompts ineficaces o redundantes
- Permite la escalabilidad y automatización controlada
- Facilita la evaluación objetiva del rendimiento
Reglas de Uso
1. Generación de Prompts
- DEBE limitarse el espacio de búsqueda mediante restricciones explícitas
- DEBE incluirse un número máximo de variaciones por tarea
- DEBE documentarse el proceso de generación
2. Evaluación
- DEBE implementarse un sistema de métricas objetivas
- DEBE incluirse un conjunto de casos de prueba representativos
- DEBE establecerse un umbral mínimo de rendimiento
3. Selección
- DEBE basarse en criterios objetivos y medibles
- DEBE incluir validación humana en casos críticos
- DEBE documentarse la justificación de la selección
Cuándo Aplicar
- Optimización automatizada de prompts en producción
- Generación masiva de prompts para múltiples contextos
- Fine-tuning de sistemas sin intervención humana
- Evaluación sistemática de rendimiento de prompts
Cuándo Evitar
- Tareas que requieren control humano directo
- Contextos con requisitos específicos no cuantificables
- Sistemas con restricciones de recursos computacionales
- Casos que requieren interpretación subjetiva
Métricas de Evaluación
| Métrica | Descripción | Umbral Mínimo |
|---|---|---|
| Precisión | Exactitud de las respuestas | ≥ 0.85 |
| Consistencia | Estabilidad en resultados | ≥ 0.90 |
| Eficiencia | Tiempo de procesamiento | ≤ 2s |
| Claridad | Legibilidad del prompt | ≥ 0.80 |
Referencias Técnicas
- Modelos de evaluación: BLEU, ROUGE, BERTScore
- Frameworks: PromptBazaar, PromptPG, PromptLayer
- Métricas de rendimiento: precisión, recall, F1-score