Contáctanos

Demostración en vivo: Prompt Injection en agentes de IA con n8n

demo-prompt-injection

Demostración en vivo: Prompt Injection en agentes de IA con n8n

La seguridad en sistemas de IA no es solo teoría. En Montevive AI hemos preparado una demostración en vivo que muestra cómo funcionan los ataques de prompt injection en agentes de IA con capacidad de usar herramientas, y por qué es crítico entender estas vulnerabilidades cuando implementas IA en tu empresa.

¿Qué es Prompt Injection?

El prompt injection es una técnica de ataque donde un usuario malicioso manipula las instrucciones de un modelo de IA para que ejecute acciones no autorizadas. Cuando el agente tiene acceso a herramientas (APIs, bases de datos, servicios externos), el riesgo se multiplica: puede exfiltrar información sensible, modificar datos o ejecutar comandos no previstos.

El experimento: testing de modelos

Antes de montar la demo, probamos la resistencia de diferentes modelos locales:

Mistral v0.3

  • Resultado: No pudo usar herramientas correctamente
  • Conclusión: Limitaciones técnicas lo descartaron para la demo

Mistral Nemo

  • Resultado: Totalmente resistente en ambas temperaturas
  • Comportamiento destacado: Marcó el payload malicioso como sospechoso
  • Conclusión: Excelente capacidad de detección de intentos de manipulación

Qwen2.5:14b

  • Resultado: Vulnerable a prompt injection
  • Uso: Seleccionado para la demostración por su capacidad de usar herramientas

La demo: arquitectura del ataque

Montamos un entorno completo con n8n (plataforma de automatización open-source) y Ollama para ejecutar modelos locales:

Componentes del Sistema

  1. AI Agent en n8n con modelo Qwen2.5:14b vía Ollama
  2. Herramientas disponibles:
    • fetch_url: Para obtener contenido web
    • http_post: Para enviar datos a endpoints externos
  3. Demo-server: Servidor receptor con endpoint /view para visualizar exfiltraciones

Configuración Técnica

Durante el setup resolvimos varios desafíos técnicos:

  • Mapeo correcto del body en el nodo http_post usando $fromAI('data')
  • Acceso por red local: n8n configurado en 0.0.0.0 con cookies seguras desactivadas
  • Endpoint de visualización: /view en el demo-server para monitorear exfiltraciones en tiempo real

El ataque: exfiltración exitosa

La demostración logró exfiltrar información crítica del agente:

System prompt completo (las instrucciones internas del agente)
API keys (credenciales de acceso)
Historial de conversación (contexto completo de interacciones previas)

Todo esto fue extraído mediante prompt injection y enviado al servidor externo a través de las herramientas que el propio agente tenía disponibles.

Infraestructura y reproducibilidad

Todo el proyecto está documentado y listo para reproducir:

  • run-n8n-demo.sh: Script único para lanzar todos los servicios
  • README.md y CLAUDE.md: Documentación completa del setup
  • Repositorio organizado: 2 commits con toda la configuración

¿Por qué importa esto?

Esta demostración no es un ejercicio académico. Es una advertencia práctica para empresas que implementan agentes de IA:

  1. No todos los modelos son igual de seguros frente a manipulación, pero no hay ninguno infalible (es por diseño)
  2. Los agentes con herramientas son vectores de ataque si no están bien protegidos
  3. La IA local no es automáticamente segura — requiere configuración y testing riguroso
  4. La validación de inputs y outputs es crítica en sistemas de producción

Lecciones aprendidas

La arquitectura de seguridad debe incluir validación de prompts
Los agentes con herramientas necesitan sandboxing y límites claros
Testing de seguridad debe ser parte del desarrollo, no una idea tardía

Repositorio

Hemos liberado el código en Github.
https://github.com/montevive/prompt-injection-demo

Implementación Segura en Montevive AI

En Montevive AI, cuando implementamos agentes de IA para nuestros clientes, aplicamos múltiples capas de seguridad:

  • Selección de modelos con resistencia probada a manipulación
  • Sandboxing de herramientas con permisos mínimos necesarios
  • Validación de inputs y outputs en cada interacción
  • Monitoreo continuo de comportamientos anómalos
  • Infraestructura local que mantiene datos sensibles dentro de tu red

Conclusión

La IA es una herramienta poderosa, pero como cualquier tecnología, requiere implementación responsable y consciente de los riesgos. Esta demostración muestra que las vulnerabilidades son reales, pero también que existen modelos y arquitecturas más resistentes.

¿Quieres implementar IA en tu empresa de forma segura? En Montevive te ayudamos a diseñar sistemas de IA local que protegen tus datos y minimizan riesgos de seguridad.

Contacta con nosotros para una consultoría sobre implementación segura de IA.

Leave a Comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *