OpenAI lanza Lockdown Mode para proteger datos sensibles de prompt injection

El prompt injection es el equivalente de SQL injection para LLMs: un ataque donde inputs maliciosos manipulan el comportamiento del modelo para que ejecute acciones no autorizadas o revele información que debería estar protegida. A diferencia de SQL injection, que tiene mitigaciones bien establecidas (prepared statements, ORMs), el prompt injection no tiene solución definitiva porque los LLMs no distinguen entre «instrucciones del sistema» y «datos del usuario» de forma confiable.

Lockdown Mode es un workaround, no una solución. Probablemente funciona limitando qué tipos de outputs puede generar el modelo cuando detecta ciertos patrones en el input, o restringiendo el acceso a ciertos contextos de memoria. Pero OpenAI mismo admite que no es infalible, lo cual significa que cualquier aplicación enterprise que maneje datos sensibles todavía necesita asumir que el modelo puede ser comprometido.

La implicación más amplia es que los LLMs no son confiables como boundary de seguridad. Si tu arquitectura depende de que el modelo «entienda» qué información puede compartir y cuál no, estás construyendo sobre arena. La defensa real tiene que venir de capas externas: sandboxing, filtros de output, y sobre todo, no pasarle al modelo datos que no puede revelar bajo ninguna circunstancia.

Fuente original →