Demostración en vivo: Prompt Injection en agentes de IA con n8n

La seguridad en sistemas de IA no es solo teoría. En Montevive AI hemos preparado una demostración en vivo que muestra cómo funcionan los ataques de prompt injection en agentes de IA con capacidad de usar herramientas, y por qué es crítico entender estas vulnerabilidades cuando implementas IA en tu empresa.

¿Qué es Prompt Injection?

El prompt injection es una técnica de ataque donde un usuario malicioso manipula las instrucciones de un modelo de IA para que ejecute acciones no autorizadas. Cuando el agente tiene acceso a herramientas (APIs, bases de datos, servicios externos), el riesgo se multiplica: puede exfiltrar información sensible, modificar datos o ejecutar comandos no previstos.

El experimento: testing de modelos

Antes de montar la demo, probamos la resistencia de diferentes modelos locales:

Mistral v0.3

Resultado: No pudo usar herramientas correctamente
Conclusión: Limitaciones técnicas lo descartaron para la demo

Mistral Nemo

Resultado: Totalmente resistente en ambas temperaturas
Comportamiento destacado: Marcó el payload malicioso como sospechoso
Conclusión: Excelente capacidad de detección de intentos de manipulación

Qwen2.5:14b

Resultado: Vulnerable a prompt injection
Uso: Seleccionado para la demostración por su capacidad de usar herramientas

La demo: arquitectura del ataque

Montamos un entorno completo con n8n (plataforma de automatización open-source) y Ollama para ejecutar modelos locales:

Componentes del Sistema

AI Agent en n8n con modelo Qwen2.5:14b vía Ollama
Herramientas disponibles:
- fetch_url: Para obtener contenido web
- http_post: Para enviar datos a endpoints externos
Demo-server: Servidor receptor con endpoint /view para visualizar exfiltraciones

Configuración Técnica

Durante el setup resolvimos varios desafíos técnicos:

Mapeo correcto del body en el nodo http_post usando $fromAI('data')
Acceso por red local: n8n configurado en 0.0.0.0 con cookies seguras desactivadas
Endpoint de visualización: /view en el demo-server para monitorear exfiltraciones en tiempo real

El ataque: exfiltración exitosa

La demostración logró exfiltrar información crítica del agente:

✅ System prompt completo (las instrucciones internas del agente)
✅ API keys (credenciales de acceso)
✅ Historial de conversación (contexto completo de interacciones previas)

Todo esto fue extraído mediante prompt injection y enviado al servidor externo a través de las herramientas que el propio agente tenía disponibles.

Infraestructura y reproducibilidad

Todo el proyecto está documentado y listo para reproducir:

run-n8n-demo.sh: Script único para lanzar todos los servicios
README.md y CLAUDE.md: Documentación completa del setup
Repositorio organizado: 2 commits con toda la configuración

¿Por qué importa esto?

Esta demostración no es un ejercicio académico. Es una advertencia práctica para empresas que implementan agentes de IA:

No todos los modelos son igual de seguros frente a manipulación, pero no hay ninguno infalible (es por diseño)
Los agentes con herramientas son vectores de ataque si no están bien protegidos
La IA local no es automáticamente segura — requiere configuración y testing riguroso
La validación de inputs y outputs es crítica en sistemas de producción

Lecciones aprendidas

✅ La arquitectura de seguridad debe incluir validación de prompts
✅ Los agentes con herramientas necesitan sandboxing y límites claros
✅ Testing de seguridad debe ser parte del desarrollo, no una idea tardía

Repositorio

Hemos liberado el código en Github.
https://github.com/montevive/prompt-injection-demo

Implementación Segura en Montevive AI

En Montevive AI, cuando implementamos agentes de IA para nuestros clientes, aplicamos múltiples capas de seguridad:

Selección de modelos con resistencia probada a manipulación
Sandboxing de herramientas con permisos mínimos necesarios
Validación de inputs y outputs en cada interacción
Monitoreo continuo de comportamientos anómalos
Infraestructura local que mantiene datos sensibles dentro de tu red

Conclusión

La IA es una herramienta poderosa, pero como cualquier tecnología, requiere implementación responsable y consciente de los riesgos. Esta demostración muestra que las vulnerabilidades son reales, pero también que existen modelos y arquitecturas más resistentes.

¿Quieres implementar IA en tu empresa de forma segura? En Montevive te ayudamos a diseñar sistemas de IA local que protegen tus datos y minimizan riesgos de seguridad.

Contacta con nosotros para una consultoría sobre implementación segura de IA.

Demostración en vivo: Prompt Injection en agentes de IA con n8n