Evals de LLM (Evaluación Sistemática)

Por qué el testing clásico no basta

Los sistemas con IA son no deterministas y carecen de oráculo exacto: la misma entrada puede producir salidas distintas y “correcto” es un rango, no un valor. El assert equals clásico no aplica; necesitamos evaluación estadística sobre umbrales.

Tipos de evaluador

Evaluador	Ejemplo	Cuándo
Determinístico	exact match, regex, JSON schema	salidas estructuradas
Estadístico	similitud semántica, ROUGE	comparación contra referencia
LLM-as-judge	rúbrica puntuada por un modelo	calidad subjetiva a escala
Human-in-the-loop	revisión experta	alto riesgo / calibración

Integración continua

Las evals son el equivalente a tu suite de regresión: corren en cada cambio de prompt o modelo y bloquean despliegues si el score cae bajo el umbral. En producción, las online evals monitorizan deriva de calidad.

Evals de LLM (Evaluación Sistemática)

Por qué el testing clásico no basta

Tipos de evaluador

Integración continua

Grafo de conocimiento