⚙️ Parámetros de Configuración de un LLM

Los modelos de lenguaje (LLM) como GPT, Claude o Gemini, permiten ajustar su comportamiento mediante parámetros de configuración. Estos controlan el estilo de las respuestas, su precisión, creatividad, longitud, y otros aspectos clave del output.

Este documento explora los principales parámetros utilizados, cómo se relacionan entre sí, y ofrece ejemplos claros para cada caso.

🎛️ Principales Parámetros

🔥 Temperatura (`temperature`)

Controla el nivel de aleatoriedad del modelo. Valores bajos lo hacen más determinista (conservador), mientras que valores altos permiten más creatividad o variabilidad.

0.0 – 0.3: respuestas precisas, seguras, repetitivas.
0.7 – 1.0: respuestas más variadas, creativas, menos predecibles.

Ejemplo:

Prompt: Dame un eslogan para una app de meditación.

Con temperatura 0.2 → "Respirá profundo. Viví mejor."
Con temperatura 0.9 → "Silencio en tu bolsillo. Paz en tu alma."

🎯 Top-k Sampling (`top_k`)

Limita la cantidad de opciones que el modelo puede elegir en cada paso de generación a las k palabras más probables.

top_k = 1: solo la palabra más probable (máxima seguridad).
top_k = 40: elige entre las 40 mejores opciones.

Ejemplo:

Top-k = 1 → Respuesta más lógica pero repetitiva.
Top-k = 50 → Puede introducir más sinónimos o cambios de estilo.

🧮 Top-p Sampling (`top_p` o nucleus sampling)

En lugar de fijar un número de palabras (como top-k), limita la selección a un grupo de palabras cuya probabilidad acumulada no supere un cierto umbral p.

top_p = 0.9: el modelo elige dentro del conjunto de palabras que suman 90% de probabilidad total.
Puede combinarse con temperature o reemplazar top_k.

Ejemplo:

Top-p = 1.0 → comportamiento clásico del modelo (sin filtro).
Top-p = 0.8 → respuestas más controladas, sin rarezas.

🧱 Max Tokens (`max_tokens`)

Define la longitud máxima de la respuesta generada, medida en tokens (no palabras).

Afecta el costo y el tiempo de procesamiento.
Si el modelo corta abruptamente, puede deberse a max_tokens muy bajo.

Ejemplo:

max_tokens = 20 → "Este es un resumen breve del tema que pediste."
max_tokens = 200 → Resumen más completo, con detalles y estructura.

🔁 Frequency Penalty / Presence Penalty (OpenAI-specific)

Permiten penalizar la repetición de palabras o frases:

Frequency penalty: penaliza tokens repetidos según su frecuencia.
Presence penalty: penaliza si ya aparecieron antes, sin importar frecuencia.

Ejemplo práctico:

Sin penalización: "La manzana es roja. La manzana es dulce. La manzana..."
Con penalización: "La manzana es roja. Es una fruta dulce. También es jugosa."

📥 Stop Sequences (`stop`)

Define cadenas de texto que detienen la generación si se encuentran. Útil para delimitar diálogos, secciones o respuestas múltiples.

Ejemplo:

Prompt:
Persona: ¿Cómo estás?
Asistente:

Stop sequence: ["Persona:"] → el modelo cortará antes de comenzar otra réplica.

🧠 Recomendaciones de uso

Para precisión máxima (resúmenes, código, legal): → temperature=0, top_p=1, top_k=1
Para creatividad (storytelling, brainstorming): → temperature=0.8, top_p=0.9, top_k=40
Para generación estructurada (JSON, tablas, etc): → temperature=0.3, stop=["\n"], max_tokens ajustado

🧪 Combinaciones típicas

Uso	Temperature	Top-p	Top-k	Max Tokens
Chat profesional	0.3	0.85	40	300
Storytelling creativo	0.9	1.0	100	600
Clasificación de textos	0.0	1.0	1	50
Generación de código	0.2	1.0	1	200

📌 Nota final

Ajustar estos parámetros es como afinar un instrumento: pequeños cambios pueden mejorar drásticamente la calidad del resultado. Experimentá, medí y documentá tus combinaciones ideales.

Este archivo seguirá creciendo a medida que surjan nuevos parámetros o técnicas de control.

🎛️ Principales Parámetros​

🔥 Temperatura (temperature)​

🎯 Top-k Sampling (top_k)​

🧮 Top-p Sampling (top_p o nucleus sampling)​

🧱 Max Tokens (max_tokens)​

🔁 Frequency Penalty / Presence Penalty (OpenAI-specific)​

📥 Stop Sequences (stop)​

🧠 Recomendaciones de uso​

🧪 Combinaciones típicas​

📌 Nota final​

🎛️ Principales Parámetros

🔥 Temperatura (`temperature`)

🎯 Top-k Sampling (`top_k`)

🧮 Top-p Sampling (`top_p` o nucleus sampling)

🧱 Max Tokens (`max_tokens`)

🔁 Frequency Penalty / Presence Penalty (OpenAI-specific)

📥 Stop Sequences (`stop`)

🧠 Recomendaciones de uso

🧪 Combinaciones típicas

📌 Nota final