Técnica Investigación advanced ES

Evals de LLM (Evaluación Sistemática)

Metodología para evaluar la calidad de salidas de un LLM con datasets dorados, evaluadores (determinísticos, estadísticos, LLM-as-judge) y umbrales en CI y producción.

Por qué el testing clásico no basta

Los sistemas con IA son no deterministas y carecen de oráculo exacto: la misma entrada puede producir salidas distintas y “correcto” es un rango, no un valor. El assert equals clásico no aplica; necesitamos evaluación estadística sobre umbrales.

Tipos de evaluador

EvaluadorEjemploCuándo
Determinísticoexact match, regex, JSON schemasalidas estructuradas
Estadísticosimilitud semántica, ROUGEcomparación contra referencia
LLM-as-judgerúbrica puntuada por un modelocalidad subjetiva a escala
Human-in-the-looprevisión expertaalto riesgo / calibración

Integración continua

Las evals son el equivalente a tu suite de regresión: corren en cada cambio de prompt o modelo y bloquean despliegues si el score cae bajo el umbral. En producción, las online evals monitorizan deriva de calidad.

Grafo de conocimiento