Alucinaciones en LLMs
Salidas de un modelo de lenguaje que son fluidas y plausibles pero falsas o no fundamentadas en la fuente. Riesgo central de calidad en productos con IA generativa.
Definición
Una alucinación es contenido generado por el modelo que no se sostiene: hechos inventados, citas inexistentes, o afirmaciones no respaldadas por el contexto recuperado. Se distinguen dos tipos:
- Intrínseca: contradice la fuente proporcionada.
- Extrínseca: no es verificable contra la fuente (puede ser cierta o no, pero no está fundamentada).
Por qué ocurre
Los LLM optimizan plausibilidad estadística del siguiente token, no veracidad. Sin un mecanismo de anclaje (grounding) o verificación, el modelo “rellena” huecos con texto coherente pero potencialmente falso.
Cómo se testea
| Enfoque | Qué mide |
|---|---|
| Faithfulness / groundedness | ¿La respuesta se deriva del contexto recuperado? |
| LLM-as-judge | Un modelo evaluador puntúa la respuesta contra una rúbrica. |
| Fact verification | Contraste contra una fuente de verdad o golden dataset. |
| Citas obligatorias | El sistema debe citar; se verifica que la cita exista y respalde. |
Grafo de conocimiento
Mitigado por
Complementado por