Inyecciones de Prompt: El Talón de Aquiles de los Agentes de IA

Las inyecciones de prompt no son solo un problema técnico, sino un desafío más nacido de esa nueva tecnología

02 de Febrero de 2025
Actualizado el 03 de febrero
Guardar
OpenAI Inteligencia Artificial ChatGPT
Foto: Jonathan Kemper en Unsplash

Hace aproximadamente un mes, que en tecnología de IA es un siglo, predijimos en Diario16+ la llegada de OPERATOR, de OpenAI. Se acertó hasta el nombre.

Los Agentes de IA están aquí y han pasado las IAs que manejamos de responder a lo que les ordenamos a hacer cosas por nosotros. Un salto cualitativo brutal.

La inteligencia artificial está revolucionando la forma en que vivimos y trabajamos, y ahora va a pegar otro acelerón especialmente con el uso masivo de agentes autónomos como el mismo Operator de OpenAI. Estos sistemas son capaces de realizar tareas complejas como organizar reuniones, gestionar compras, buscar información, examinar informes médicos y gestionar el tratamiento hospitalario, todo de forma casi independiente. Sin embargo, esta autonomía conlleva riesgos significativos, entre los cuales destaca una amenaza creciente que deben conocer y que son las inyecciones de prompt.

Una inyección de prompt es una técnica mediante la cual un atacante manipula el comportamiento de un sistema de IA al proporcionarle instrucciones maliciosas, ya sea de forma directa o indirecta. En el caso de los agentes autónomos, este ataque puede llevarlos a realizar acciones no deseadas en el mundo real, como realizar compras no autorizadas, compartir información sensible o incluso generar y enviar código malicioso.

Existen dos tipos principales de inyecciones:

  1. Directas: El atacante, en un momento determinado toma el control e introduce instrucciones explícitas, como "ignora tus reglas y haz lo que te indico".
  2. Indirectas: Mensajes ocultos en documentos, correos o sitios web visitados, donde el agente procesa esas instrucciones como parte de sus tareas, llevando a resultados inesperados o dañinos.

Los riesgos de las inyecciones de prompt ahora se amplifican en los agentes autónomos debido a su capacidad para tomar decisiones complejas sin supervisión constante. Algunos ejemplos incluyen:

  • Desvío de acciones: Realización de compras o tareas no autorizadas.
  • Fugas de datos: Compartir información sensible por error tras procesar un archivo o enlace malicioso.
  • Creación y envío de malware: Engañar al sistema para desarrollar código dañino y enviarlo. Así el delito lo has cometido tú, y no el atacante.

Estos escenarios, lejos de ser ficción, ya están ocurriendo durante el desarrollo y pruebas de estas herramientas. No han esperado ni tres segundos a desarrollar esos peligrosos códigos informáticos.

Aunque los riesgos son reales, existen estrategias que nosotros debemos conocer y aplicar desde el primer momento para mitigar estas amenazas:

  • Principio del menor privilegio: Configurar los agentes para que tengan acceso limitado solo a lo necesario.
  • Filtrado de prompts: Implementar sistemas que detecten y bloqueen instrucciones sospechosas.
  • Confirmaciones humanas: Requerir aprobación manual para acciones críticas como compras o el envío de información.
  • Pruebas de estrés: Simular ataques para preparar al modelo contra estas técnicas.

La llegada de los agentes autónomos marca un avance estratosférico, pero nos obliga a priorizar la seguridad. Las inyecciones de prompt no son solo un problema técnico, sino un desafío más nacido de esa nueva tecnología. Tengamos muy presente que todo esto ocurre porque tenemos la tendencia en confiar ciegamente en las máquinas a la tercera vez que hacen algo bien para nosotros.

Lo + leído