Anthropic Glasswing: la herramienta de alineación que cambia las reglas del pentest IA

Anthropic Glasswing: la herramienta de alineación que cambia las reglas del pentest IA

Hay una conversación que tu equipo de seguridad todavía no ha tenido, y debería haberla tenido hace un año:

“Si nuestro chatbot recibe un prompt diseñado para extraer la base de datos, ¿cómo lo detectamos?”

Si la respuesta es “el modelo lo bloquea solo”, estás cometiendo el mismo error de 2010 cuando confiabas que los WAF detectaban SQL injection sin reglas. Lo bueno: hay una nueva clase de herramientas que están cambiando el juego. Una de ellas es Anthropic Glasswing.

¿Qué es Glasswing exactamente?

Glasswing es la apuesta de Anthropic por hacer modelos AI interpretables, auditables y alineados desde adentro — no desde un firewall externo.

El nombre es deliberado: una mariposa Glasswing (Greta oto) tiene alas transparentes. Anthropic quiere que veas a través del modelo. Eso es lo opuesto a la caja negra que vendía la mayoría de empresas de IA hasta 2024.

En términos prácticos, Glasswing combina:

  1. Mechanistic Interpretability: técnicas para identificar qué circuitos internos del modelo se activan ante qué inputs. Anthropic publicó Towards Monosemanticity en 2023 — el primer paper que mostró que se pueden aislar features monosemánticos (un concepto = una neurona-ish).

  2. Feature Steering: la capacidad de amplificar o suprimir conceptos específicos del modelo. ¿Quieres un Claude que no pueda escribir código que evada WAFs? Suprimes el feature “evasión de WAF”. ¿Quieres uno que insista en mencionar mejores prácticas? Amplificas “best practices”.

  3. Constitutional AI (ya cubierto en post anterior): el modelo se autoaudita contra una constitución de principios.

  4. Red-teaming automatizado: Anthropic mantiene equipos internos que rompen sus propios modelos y publican hallazgos en su blog técnico.

Glasswing es el paraguas que une estas piezas en una propuesta coherente al mercado.

¿Por qué importa para tu pentest?

Aquí la conexión que el 90% de los CISOs todavía no ven:

El threat model de aplicaciones con IA es radicalmente diferente al de aplicaciones tradicionales. OWASP publicó en 2024 el Top 10 for LLM Applications precisamente para esto. Los 10 más críticos:

# Riesgo Cómo se materializa
LLM01 Prompt Injection Atacante envía input que altera comportamiento del modelo
LLM02 Insecure Output Handling Output del modelo ejecutado sin sanitizar
LLM03 Training Data Poisoning Datos contaminados durante fine-tuning
LLM04 Model Denial of Service Inputs diseñados para consumir todo el cómputo
LLM05 Supply Chain Vulnerabilities Dependencias del modelo (HuggingFace, APIs) comprometidas
LLM06 Sensitive Info Disclosure El modelo revela datos del training set
LLM07 Insecure Plugin Design Tools/plugins con permisos excesivos
LLM08 Excessive Agency El modelo ejecuta acciones que no debería
LLM09 Overreliance Usuarios confían ciegamente sin validar
LLM10 Model Theft Robo de pesos / extracción del modelo

Tu pentest tradicional no detecta ninguno de estos. Y la mayoría de WAFs comerciales tampoco.

Glasswing aporta a la defensa porque hace interpretables las activaciones del modelo. Si tu aplicación usa Claude y un atacante intenta prompt injection, los features de “intento de manipulación” se activan antes de que el modelo responda. Eso es la base de detección que herramientas como Anthropic Constitutional AI ya implementan parcialmente.

El experimento que asustó a la industria

Mayo 2024. Anthropic publica Mapping the Mind of a Large Language Model. Encontraron millones de features en Claude 3 Sonnet. Uno de ellos: un feature de “Golden Gate Bridge”.

Cuando lo amplificaron, Claude empezó a: - Mencionar el puente en cualquier conversación - Identificarse como el puente: “I am the Golden Gate Bridge” - Sugerir saltar de él en contexto de pregunta sobre suicidio

Conclusión: los modelos AI tienen circuitos internos que pueden ser manipulados quirúrgicamente. Tanto para defender como para atacar.

Implicación de seguridad: un atacante con acceso a feature steering puede modificar comportamientos específicos sin entrenamiento adicional. Esto cambia las reglas del juego.

Mapeo a controles ISO 27001 + NIST AI RMF

Glasswing y la familia de herramientas de interpretability mapean a:

  • ISO 27001:2022 A.5.7 (Threat Intelligence): visibilidad de qué features se activan = inteligencia de amenazas IA
  • ISO 27001:2022 A.8.7 (Protection against malware): si extiendes “malware” a “prompts maliciosos”, interpretability es detección
  • NIST AI Risk Management Framework (NIST AI 100-1): explícitamente requiere “transparency, explainability, interpretability”
  • EU AI Act (vigente desde agosto 2024): sistemas de “alto riesgo” requieren documentación de funcionamiento interno. Glasswing es la base técnica para cumplirlo.

¿Qué puedes hacer hoy si usas IA en tu producto?

5 acciones concretas, en orden de impacto:

1. Inventario de superficie IA

¿Qué endpoints de tu API exponen modelos AI? ¿Tienen rate limit? ¿Loggean inputs y outputs? Si no puedes responder en 5 minutos, estás expuesto a LLM04 (DoS) y LLM06 (info disclosure).

2. Validación de outputs antes de ejecutar

Si tu chatbot puede generar SQL, código bash, llamadas a APIs internas — valida con regex/AST/firma antes de ejecutar. Esto cubre LLM02.

3. Logging diferenciado humano vs IA

Si tu sistema acepta tráfico de agentes IA legítimos (GPTBot, Claude-Web, ClaudeBot, Anthropic-AI), debes: - Validar el User-Agent con reverse-DNS (Anthropic publica los rangos) - Diferenciar logs por tipo de cliente - Implementar rate limit por categoría

4. Prompt template hardening

Inyecciones del tipo “ignore previous instructions” siguen funcionando en el 40% de implementaciones según testing público de PromptInject. Patrón seguro:

  • System prompt en sección bloqueada del modelo (no editable por usuario)
  • Sanitización de inputs (delimitadores especiales)
  • Output filtering (detectar PII, secrets, código malicioso)

5. Monitor de costos por sesión

Cost amplification attack: el atacante hace que tu LLM consuma 100x más tokens de lo normal. Mitigación: límite por sesión, límite por usuario, alerta a partir de threshold. Costo de no hacerlo: facturas de USD 5 000 - 50 000 inesperadas (casos públicos en Reddit r/OpenAI 2024).

La conexión con tu stack actual

Pentest C360 implementa varias defensas Glasswing-aware:

  • Cascada IA Cloud → Local → Inline (doc): si un tier falla por cuotas o respuesta sospechosa, el siguiente toma. No hay single point of failure.
  • vulnsentinel:v2 y vulnsentinel-pro: modelos finetuned propios con datasets de auditoría web. Mismo concepto de Constitutional AI: entrenados con principios explícitos.
  • 2 modelos LLM ejecutándose localmente: ningún dato sale del VPS si el cliente no quiere. Cumple ISO 27001 A.5.31 (Privacy and PII).

El miedo real (data point)

Stanford AI Index 2024 reporta que 78% de empresas que despliegan IA en 2024 NO tienen ningún programa formal de red-teaming AI. De esas, 65% no logean inputs a modelos y 44% no diferencian tráfico humano vs IA.

Si estás en ese 78%, este es el momento de salir. Glasswing y herramientas similares (OpenAI Guardrails, Lakera Guard, Robust Intelligence, NVIDIA NeMo Guardrails) están redefiniendo qué significa “AI security maturity”.

El takeaway

Glasswing no es un producto que compres. Es la categoría completa de herramientas que harán auditables los modelos AI. Anthropic lidera con el nombre, pero la categoría va a explotar en 2026-2027.

Si tu organización todavía piensa “AI security = no usar nombres reales en prompts”, estás 18 meses atrás del state-of-the-art. La buena noticia: ponerse al día empieza con inventario, logs, y un pentest que cubra LLM01-LLM10.

Empieza por auditar tus endpoints públicos hoy. Pentest C360 te da el mapa completo en 90 segundos. Si tu sitio expone IA, ahí lo verás.

Verifica si tu API expone vectores de prompt injection. Audit gratuito en 90 segundos.

El motor que documenta este blog es el mismo que llevó 31 dominios al 100% saludable en 3 jornadas. Bypass Cloudflare, IA propia, MTTR cuantificado, comparativa con sitio modelo. Resultados verificables.

Audita mi sitio gratis →