Saltar al contenido principal

⚙️ Parámetros de Configuración de un LLM

Los modelos de lenguaje (LLM) como GPT, Claude o Gemini, permiten ajustar su comportamiento mediante parámetros de configuración. Estos controlan el estilo de las respuestas, su precisión, creatividad, longitud, y otros aspectos clave del output.

Este documento explora los principales parámetros utilizados, cómo se relacionan entre sí, y ofrece ejemplos claros para cada caso.


🎛️ Principales Parámetros

🔥 Temperatura (temperature)

Controla el nivel de aleatoriedad del modelo. Valores bajos lo hacen más determinista (conservador), mientras que valores altos permiten más creatividad o variabilidad.

  • 0.0 – 0.3: respuestas precisas, seguras, repetitivas.
  • 0.7 – 1.0: respuestas más variadas, creativas, menos predecibles.

Ejemplo:

Prompt: Dame un eslogan para una app de meditación.

Con temperatura 0.2 → "Respirá profundo. Viví mejor."
Con temperatura 0.9 → "Silencio en tu bolsillo. Paz en tu alma."

🎯 Top-k Sampling (top_k)

Limita la cantidad de opciones que el modelo puede elegir en cada paso de generación a las k palabras más probables.

  • top_k = 1: solo la palabra más probable (máxima seguridad).
  • top_k = 40: elige entre las 40 mejores opciones.

Ejemplo:

Top-k = 1 → Respuesta más lógica pero repetitiva.
Top-k = 50 → Puede introducir más sinónimos o cambios de estilo.

🧮 Top-p Sampling (top_p o nucleus sampling)

En lugar de fijar un número de palabras (como top-k), limita la selección a un grupo de palabras cuya probabilidad acumulada no supere un cierto umbral p.

  • top_p = 0.9: el modelo elige dentro del conjunto de palabras que suman 90% de probabilidad total.
  • Puede combinarse con temperature o reemplazar top_k.

Ejemplo:

Top-p = 1.0 → comportamiento clásico del modelo (sin filtro).
Top-p = 0.8 → respuestas más controladas, sin rarezas.

🧱 Max Tokens (max_tokens)

Define la longitud máxima de la respuesta generada, medida en tokens (no palabras).

  • Afecta el costo y el tiempo de procesamiento.
  • Si el modelo corta abruptamente, puede deberse a max_tokens muy bajo.

Ejemplo:

max_tokens = 20 → "Este es un resumen breve del tema que pediste."
max_tokens = 200 → Resumen más completo, con detalles y estructura.

🔁 Frequency Penalty / Presence Penalty (OpenAI-specific)

Permiten penalizar la repetición de palabras o frases:

  • Frequency penalty: penaliza tokens repetidos según su frecuencia.
  • Presence penalty: penaliza si ya aparecieron antes, sin importar frecuencia.

Ejemplo práctico:

Sin penalización: "La manzana es roja. La manzana es dulce. La manzana..."
Con penalización: "La manzana es roja. Es una fruta dulce. También es jugosa."

📥 Stop Sequences (stop)

Define cadenas de texto que detienen la generación si se encuentran. Útil para delimitar diálogos, secciones o respuestas múltiples.

Ejemplo:

Prompt:
Persona: ¿Cómo estás?
Asistente:

Stop sequence: ["Persona:"] → el modelo cortará antes de comenzar otra réplica.

🧠 Recomendaciones de uso

  • Para precisión máxima (resúmenes, código, legal): → temperature=0, top_p=1, top_k=1

  • Para creatividad (storytelling, brainstorming): → temperature=0.8, top_p=0.9, top_k=40

  • Para generación estructurada (JSON, tablas, etc): → temperature=0.3, stop=["\n"], max_tokens ajustado


🧪 Combinaciones típicas

UsoTemperatureTop-pTop-kMax Tokens
Chat profesional0.30.8540300
Storytelling creativo0.91.0100600
Clasificación de textos0.01.0150
Generación de código0.21.01200

📌 Nota final

Ajustar estos parámetros es como afinar un instrumento: pequeños cambios pueden mejorar drásticamente la calidad del resultado. Experimentá, medí y documentá tus combinaciones ideales.

Este archivo seguirá creciendo a medida que surjan nuevos parámetros o técnicas de control.