⚙️ Parámetros de Configuración de un LLM
Los modelos de lenguaje (LLM) como GPT, Claude o Gemini, permiten ajustar su comportamiento mediante parámetros de configuración. Estos controlan el estilo de las respuestas, su precisión, creatividad, longitud, y otros aspectos clave del output.
Este documento explora los principales parámetros utilizados, cómo se relacionan entre sí, y ofrece ejemplos claros para cada caso.
🎛️ Principales Parámetros
🔥 Temperatura (temperature)
Controla el nivel de aleatoriedad del modelo. Valores bajos lo hacen más determinista (conservador), mientras que valores altos permiten más creatividad o variabilidad.
- 0.0 – 0.3: respuestas precisas, seguras, repetitivas.
- 0.7 – 1.0: respuestas más variadas, creativas, menos predecibles.
Ejemplo:
Prompt: Dame un eslogan para una app de meditación.
Con temperatura 0.2 → "Respirá profundo. Viví mejor."
Con temperatura 0.9 → "Silencio en tu bolsillo. Paz en tu alma."
🎯 Top-k Sampling (top_k)
Limita la cantidad de opciones que el modelo puede elegir en cada paso de generación a las k palabras más probables.
top_k = 1: solo la palabra más probable (máxima seguridad).top_k = 40: elige entre las 40 mejores opciones.
Ejemplo:
Top-k = 1 → Respuesta más lógica pero repetitiva.
Top-k = 50 → Puede introducir más sinónimos o cambios de estilo.
🧮 Top-p Sampling (top_p o nucleus sampling)
En lugar de fijar un número de palabras (como top-k), limita la selección a un grupo de palabras cuya probabilidad acumulada no supere un cierto umbral p.
top_p = 0.9: el modelo elige dentro del conjunto de palabras que suman 90% de probabilidad total.- Puede combinarse con
temperatureo reemplazartop_k.
Ejemplo:
Top-p = 1.0 → comportamiento clásico del modelo (sin filtro).
Top-p = 0.8 → respuestas más controladas, sin rarezas.
🧱 Max Tokens (max_tokens)
Define la longitud máxima de la respuesta generada, medida en tokens (no palabras).
- Afecta el costo y el tiempo de procesamiento.
- Si el modelo corta abruptamente, puede deberse a
max_tokensmuy bajo.
Ejemplo:
max_tokens = 20 → "Este es un resumen breve del tema que pediste."
max_tokens = 200 → Resumen más completo, con detalles y estructura.
🔁 Frequency Penalty / Presence Penalty (OpenAI-specific)
Permiten penalizar la repetición de palabras o frases:
- Frequency penalty: penaliza tokens repetidos según su frecuencia.
- Presence penalty: penaliza si ya aparecieron antes, sin importar frecuencia.
Ejemplo práctico:
Sin penalización: "La manzana es roja. La manzana es dulce. La manzana..."
Con penalización: "La manzana es roja. Es una fruta dulce. También es jugosa."
📥 Stop Sequences (stop)
Define cadenas de texto que detienen la generación si se encuentran. Útil para delimitar diálogos, secciones o respuestas múltiples.
Ejemplo:
Prompt:
Persona: ¿Cómo estás?
Asistente:
Stop sequence: ["Persona:"] → el modelo cortará antes de comenzar otra réplica.
🧠 Recomendaciones de uso
-
Para precisión máxima (resúmenes, código, legal): →
temperature=0,top_p=1,top_k=1 -
Para creatividad (storytelling, brainstorming): →
temperature=0.8,top_p=0.9,top_k=40 -
Para generación estructurada (JSON, tablas, etc): →
temperature=0.3,stop=["\n"],max_tokensajustado
🧪 Combinaciones típicas
| Uso | Temperature | Top-p | Top-k | Max Tokens |
|---|---|---|---|---|
| Chat profesional | 0.3 | 0.85 | 40 | 300 |
| Storytelling creativo | 0.9 | 1.0 | 100 | 600 |
| Clasificación de textos | 0.0 | 1.0 | 1 | 50 |
| Generación de código | 0.2 | 1.0 | 1 | 200 |
📌 Nota final
Ajustar estos parámetros es como afinar un instrumento: pequeños cambios pueden mejorar drásticamente la calidad del resultado. Experimentá, medí y documentá tus combinaciones ideales.
Este archivo seguirá creciendo a medida que surjan nuevos parámetros o técnicas de control.