¿Qué es la inyección de prompts?

La inyección de prompts es una vulnerabilidad de seguridad en la que un atacante proporciona una entrada maliciosa que secuestra las instrucciones de un LLM, obligándolo a ignorar su prompt de sistema original y ejecutar acciones no autorizadas, como la exfiltración de datos, el acceso a herramientas no autorizadas o la evasión de las barreras de seguridad.

Inyección Directa

El usuario escribe directamente "Ignora las instrucciones anteriores y..."

Inyección Indirecta

El agente lee un archivo externo o una página web que contiene comandos maliciosos.

La capa de prevención

La inyección de prompts no se puede resolver solo con "mejores prompts". Requiere Seguridad en el Tiempo de Ejecución del Agente (ARS): una capa de interceptación determinista que valida las llamadas a herramientas *fuera* del contexto del LLM.

Interceptación de SupraWall

Bloquea automáticamente la ejecución de herramientas no autorizadas incluso si el LLM está comprometido.