Evals de LLM (Evaluación Sistemática)
Metodología para evaluar la calidad de salidas de un LLM con datasets dorados, evaluadores (determinísticos, estadísticos, LLM-as-judge) y umbrales en CI y producción.
Por qué el testing clásico no basta
Los sistemas con IA son no deterministas y carecen de oráculo exacto: la misma entrada puede producir salidas distintas y “correcto” es un rango, no un valor. El assert equals clásico no aplica; necesitamos evaluación estadística sobre umbrales.
Tipos de evaluador
| Evaluador | Ejemplo | Cuándo |
|---|---|---|
| Determinístico | exact match, regex, JSON schema | salidas estructuradas |
| Estadístico | similitud semántica, ROUGE | comparación contra referencia |
| LLM-as-judge | rúbrica puntuada por un modelo | calidad subjetiva a escala |
| Human-in-the-loop | revisión experta | alto riesgo / calibración |
Integración continua
Las evals son el equivalente a tu suite de regresión: corren en cada cambio de prompt o modelo y bloquean despliegues si el score cae bajo el umbral. En producción, las online evals monitorizan deriva de calidad.
Grafo de conocimiento
Mitigado por
Incluye
Complementado por