Alucinaciones en LLMs

Definición

Una alucinación es contenido generado por el modelo que no se sostiene: hechos inventados, citas inexistentes, o afirmaciones no respaldadas por el contexto recuperado. Se distinguen dos tipos:

Intrínseca: contradice la fuente proporcionada.
Extrínseca: no es verificable contra la fuente (puede ser cierta o no, pero no está fundamentada).

Por qué ocurre

Los LLM optimizan plausibilidad estadística del siguiente token, no veracidad. Sin un mecanismo de anclaje (grounding) o verificación, el modelo “rellena” huecos con texto coherente pero potencialmente falso.

Cómo se testea

Enfoque	Qué mide
Faithfulness / groundedness	¿La respuesta se deriva del contexto recuperado?
LLM-as-judge	Un modelo evaluador puntúa la respuesta contra una rúbrica.
Fact verification	Contraste contra una fuente de verdad o golden dataset.
Citas obligatorias	El sistema debe citar; se verifica que la cita exista y respalde.