See how Frete cut frontend build time by 70%

What are best AI tools? Take the State of AI survey

Builder.io
Builder.io
Contact sales
‹ Back to blog

AI

API de Claude Advisor: usa Opus con un 80% menos de coste

April 12, 2026

Written By Matt Abrams

Este artículo es una traducción del artículo original en inglés.

Si estás construyendo con Claude, vas a toparte con esta pared.

Eliges Opus. El razonamiento es brillante. Llega la factura. Cambias a Sonnet. El precio baja. La calidad también, en todo lo que es difícil. Vuelves a Opus para las llamadas complicadas y Sonnet para todo lo demás, y ahora estás gestionando dos modelos, dos contextos y dos conjuntos de prompts.

Anthropic acaba de lanzar una tercera opción que hace innecesario todo ese baile.

La API de Claude advisor, en beta desde el 9 de abril de 2026, te permite combinar un modelo ejecutor rápido (Sonnet o Haiku) con Opus como advisor bajo demanda. Cuando el ejecutor encuentra una decisión sobre la que no está seguro, llama al advisor a mitad de la tarea. Opus interviene. El ejecutor continúa. Todo sucede dentro de una sola llamada a la API. Sin segunda solicitud. Sin sincronización de contexto. Sin capa de orquestación.

En los benchmarks de Anthropic, Sonnet con un advisor de Opus obtuvo un 74.8% en SWE-bench Multilingual frente al 72.1% de Sonnet solo, y costó un 11.9% menos que ejecutar Opus en solitario. Y los números de Haiku son aún más llamativos, pero llegaremos a eso.

Este artículo explica qué es la herramienta de Claude advisor, cómo funciona en el lado del servidor y exactamente cómo añadirla a un agente existente.

Builder 2.0 es la plataforma diseñada exactamente para este tipo de trabajo con agentes — ejecuta más de 20 agentes impulsados por Claude en paralelo, cada uno en su propio contenedor en la nube con vista previa del navegador, con Slack y Jira integrados para que todo tu equipo entregue a través de PRs generadas automáticamente. Sin pegamento de orquestación, solo funcionalidades en producción.


¿Qué es la API de Claude advisor?

TL;DR: La API de Claude advisor es una funcionalidad en beta que te permite designar a Claude Opus como advisor bajo demanda para un modelo ejecutor más rápido (Sonnet o Haiku). El ejecutor llama al advisor a mitad de la tarea cuando necesita orientación estratégica. Todo sucede en una sola llamada a la API — sin rondas de red adicionales, sin código de orquestación, sin sincronización de contexto.

El patrón de advisor en sí no es nuevo. En 2023, que es como decir la Edad de Bronce de la IA, investigadores de UC Berkeley publicaron un artículo titulado "How to Train Your Advisor: Steering Black-Box LLMs with ADVISOR MODELS". Descubrieron que los modelos pequeños entrenados para generar consejos en lenguaje natural por instancia podían mejorar notablemente el resultado de los modelos más grandes. Anthropic incorporó ese mismo patrón directamente en la API de Claude.

La API de advisor de Anthropic añade un nuevo tipo de herramienta a tu array tools existente. Lo activas con un solo encabezado beta. Tu modelo ejecutor (el que realiza el trabajo real) sabe cuándo llamar al advisor. Cuando lo hace, la llamada ocurre en el lado del servidor. Sin round-trip. Sin lógica del lado del cliente.

Está disponible hoy en la API de Claude. No necesita una lista de espera ni una solicitud especial para el acceso a la API. Los clientes empresariales con acuerdos de Zero Data Retention (ZDR) pueden usarla sin cambiar su configuración de manejo de datos. El advisor es explícitamente elegible para ZDR.


TL;DR: El modelo ejecutor genera con normalidad hasta que decide que necesita ayuda. Emite una señal que el servidor intercepta, lo que pausa el ejecutor y ejecuta Opus sobre el historial completo de la conversación. Opus devuelve ~400-700 tokens de consejo —nunca visibles para el usuario— y el ejecutor reanuda su trabajo informado. Una sola llamada a la API, transparente para el cliente.

Este es el flujo del lado del servidor paso a paso:

  1. Envías una solicitud POST /v1/messages con la herramienta de advisor definida en el array tools
  2. El modelo ejecutor (Sonnet o Haiku) se ejecuta y genera output con normalidad
  3. Cuando encuentra una decisión con la que quiere ayuda, emite un bloque de tokens estructurado ({"type": "server_tool_use", "name": "advisor"}). Esa es la señal.
  4. El servidor pausa el ejecutor y ejecuta Opus con el historial completo de la conversación: el prompt original, cada llamada a herramienta realizada hasta ese momento y cada resultado que el ejecutor ha visto
  5. Opus genera un mensaje de consejo —un plan, una corrección, un siguiente paso estratégico— en aproximadamente 400-700 tokens
  6. Ese consejo se inyecta de vuelta en el flujo de mensajes del asistente como un bloque advisor_tool_result. El usuario nunca lo ve.
  7. El ejecutor reanuda, ahora informado por la orientación de Opus, y continúa generando
Diagrama que muestra el flujo de la herramienta de Claude advisor: tu aplicación envía un POST /v1/messages a la API de Claude en el lado del servidor, donde el Ejecutor (Sonnet o Haiku) se ejecuta y llama al Advisor (Opus 4.6) cuando lo necesita, con el consejo inyectado de vuelta — todo devuelto como una sola respuesta al cliente.

Nada cambia en el lado del cliente. Una solicitud de entrada, una respuesta de salida.

Dos cosas a tener en cuenta. El advisor lee el contexto completo de la conversación pero solo puede devolver consejos en texto. Sus tokens se facturan a la tarifa de Opus pero no cuentan contra el límite max_tokens del ejecutor. Ambos aparecen en el objeto usage, así que la atribución de costes es clara.


TL;DR: Añade el encabezado anthropic-beta: advisor-tool-2026-03-01 a tu solicitud e incluye {"type": "advisor_20260301", "name": "advisor", "model": "claude-opus-4-6"} en tu array de herramientas. Establece max_uses para limitar las llamadas al advisor —el principal control de costes. Esa es la integración completa: mismo endpoint, misma versión del SDK, sin cambios en la orquestación. Tu código de agente existente no cambia.

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic();

const response = await client.messages.create({
  model: "claude-sonnet-4-6",
  max_tokens: 4096,
  tools: [
    {
      type: "advisor_20260301",
      name: "advisor",
      model: "claude-opus-4-6",
      max_uses: 3,
    },
  ],
  messages: [
    {
      role: "user",
      content:
        "Refactor this Go service to use a worker pool with graceful shutdown.",
    },
  ],
});

console.log(response.content);

max_uses limita cuántas veces se puede llamar al advisor por solicitud. Cuando se alcanza ese límite, las siguientes solicitudes al advisor devuelven un bloque max_uses_exceeded y el ejecutor continúa sin más consejos. Este es tu principal control de costes. Configúralo según la complejidad de la tarea.

caching habilita el almacenamiento en caché de prompts en el lado del advisor. Añade "caching": {"type": "ephemeral", "ttl": "5m"} si esperas tres o más llamadas al advisor en una sola sesión. Permite a Opus omitir el reprocesamiento del contexto sin cambios en llamadas repetidas, lo que ahorra tokens.

Orientación del system prompt. El enfoque recomendado por Anthropic es indicarle al ejecutor cuándo llamar al advisor. Su plantilla sugerida:

"Tienes acceso a una herramienta advisor respaldada por un modelo más potente. Llama al advisor antes de realizar trabajo sustancial — antes de escribir, antes de comprometerte con una interpretación, antes de construir sobre un supuesto. También llama al advisor cuando creas que la tarea está completa, antes de entregar el resultado. En tareas de más de unos pocos pasos, llama al advisor al menos una vez antes de finalizar."

En la práctica, la mayor parte del valor viene de una o dos llamadas al advisor por tarea: una vez al principio para orientación, una vez antes de finalizar el resultado.

Nota de producción: El Priority Tier del modelo ejecutor no se extiende al advisor. Si estás ejecutando cargas de trabajo en producción, registra el uso de tokens del advisor por separado en el objeto usage. Está desglosado por nivel de modelo, así que la atribución de costes es clara.


TL;DR: Para tareas donde la calidad es crítica —agentes de programación, decisiones de arquitectura, investigación compleja— usa Sonnet como ejecutor con Opus como advisor. Obtienes una precisión cercana a Opus por menos que Opus solo. Para cargas de trabajo de alto volumen donde el coste importa, el par Haiku+Opus merece consideración seria: un 85% más barato que Sonnet y con una calidad muy superior a Haiku solo.

El anuncio se centra en Sonnet+Opus, y con razón. Sonnet con un advisor de Opus obtuvo un 74.8% en SWE-bench Multilingual, frente al 72.1% de Sonnet solo. Eso es una ganancia de 2.7 puntos porcentuales en un benchmark de programación difícil. Y costó un 11.9% menos que ejecutar Opus en solitario para las mismas tareas.

Pero los números de Haiku son más dramáticos.

Haiku solo obtuvo un 19.7% en BrowseComp, un benchmark de navegación centrado en investigación. Haiku con un advisor de Opus obtuvo un 41.2%. Eso es más del doble. Y este par Haiku+Opus cuesta un 85% menos que ejecutar Sonnet para la misma tarea.

Ese 85% cambia las conversaciones de presupuesto. Si estás ejecutando Claude a escala para clasificación, extracción o coincidencia de patrones que ocasionalmente necesita razonamiento complejo, el par Haiku+Opus vale la pena probarlo.

Aquí tienes una matriz de decisión práctica:

Una advertencia honesta. Todos estos benchmarks son propios de Anthropic. Todavía no existen resultados independientes de terceros. Esta es una beta de tres días. Y Haiku+Opus puntúa aproximadamente un 29% por debajo de Sonnet en tareas generales. Si tu referente es la calidad pura de Sonnet, usa Sonnet+Opus. Si actualmente estás ejecutando Haiku y quieres una actualización rentable, Haiku+Opus es la opción.

Para un contexto más amplio sobre cómo se comparan Opus y Sonnet en sesiones reales de agentes, nuestra guía práctica de Claude Code cubre las compensaciones en la selección de modelos en el desarrollo diario.


TL;DR: Omite la herramienta de advisor para consultas de un solo turno, tareas triviales y rutas críticas de latencia. Añade más valor en flujos de trabajo agénticos de múltiples pasos con puntos de decisión reales. En tareas simples, el ejecutor no invocará al advisor de todas formas — pero añadirlo agrega sobrecarga y complejidad sin ninguna ganancia.

Algunos patrones específicos donde la herramienta de advisor no aporta valor:

Consultas de un solo turno. Si el usuario pide "Resume este documento" y solo hay un paso a dar, el ejecutor no invocará al advisor. La herramienta queda inactiva. Has añadido un encabezado beta y una definición de herramienta para nada.

Tareas mecánicas triviales. Formateo de datos, búsquedas, transformaciones con regex. Estas no tienen puntos de decisión que activen el advisor. El mismo resultado, más complejidad.

Flujos de trabajo ya optimizados solo con Opus. Si ya estás ejecutando Opus y la calidad es tu única preocupación, el advisor no añade nada. Básicamente estás asesorando a Opus con Opus.

Rutas críticas de latencia. No hay un round-trip de red adicional, pero la generación de Opus sigue llevando tiempo. En rutas donde cada 100ms importa, la invocación interna del advisor añade latencia que no has tenido en cuenta.

Cuando necesitas comportamiento determinista. El advisor introduce no determinismo. Opus puede dar orientación diferente en ejecuciones repetidas. Si tu pipeline requiere resultados reproducibles, prueba con cuidado antes de depender de las llamadas al advisor.

La guía Building Effective Agents de Anthropic señala lo mismo de forma general: añade complejidad solo cuando mejora los resultados de forma demostrable.


Actualmente se admiten tres pares: Claude Haiku 4.5 como ejecutor con Claude Opus 4.6 como advisor; Claude Sonnet 4.6 como ejecutor con Claude Opus 4.6 como advisor; y Claude Opus 4.6 ejecutándose tanto como ejecutor como advisor. Cualquier otra combinación devuelve un error HTTP 400. El advisor siempre debe ser al menos tan capaz como el ejecutor.

Sí. Claude Haiku 4.5 puede ser el ejecutor con Claude Opus 4.6 como advisor. En los benchmarks BrowseComp de Anthropic, este par mejoró el rendimiento de Haiku del 19.7% al 41.2% (más del doble) mientras costaba un 85% menos que Sonnet. Para tareas de alto volumen que necesitan razonamiento complejo ocasional, este par ofrece mejor calidad a una fracción del coste de Sonnet.

Se te factura a la tarifa estándar por token de cada modelo. El ejecutor (Sonnet o Haiku) genera a su tarifa más baja. Opus genera la respuesta del advisor (~400-700 tokens) a la tarifa de Opus. El coste total suele ser menor que ejecutar Opus solo para la misma tarea. Los tokens del advisor se desglosan por separado en el objeto usage para una atribución de costes clara.

Sí. A partir de abril de 2026, la herramienta de advisor requiere el encabezado anthropic-beta: advisor-tool-2026-03-01. Es accesible a través de la API estándar de Claude sin lista de espera ni solicitud especial. Los clientes empresariales con acuerdos de Zero Data Retention (ZDR) pueden usarla sin cambiar su configuración de manejo de datos. Contacta con tu equipo de cuenta de Anthropic para acuerdos específicos para empresas.


La decisión entre Opus y Sonnet solía ser una compensación binaria. Elegías calidad o elegías coste.

La API de Claude advisor te da un dial. Usa Sonnet como tu caballo de batalla, incorpora Opus en las llamadas difíciles y paga menos de lo que pagarías ejecutando Opus a tiempo completo. O ve más lejos con Haiku y deja que Opus duplique tu calidad al 85% del coste de Sonnet.

Un encabezado y una definición de herramienta para integrarlo en un agente existente. La documentación de la herramienta de advisor de Anthropic cubre la especificación completa, incluidas las opciones de almacenamiento en caché y la plantilla completa del system prompt de Anthropic.

Si estás construyendo flujos de trabajo visuales sobre agentes Claude, Builder.io se integra con Claude para flujos de trabajo de contenido y desarrollo impulsados por IA.

Build in Claude Code.

Ship as a team in Builder.

Builder 2.0 lets you push your branch and hand off design review, PM feedback, and QA to the rest of your team
Try for free

Announcing Builder 2.0:

Multiplayer coding

Real-time collaboration, parallel agents, and visual editing. The whole team ships real code with Al now.

Try for free
Continue Reading
AI8 MIN
5 Questions to Ask Before Implementing an Agentic Development Platform
WRITTEN BYAmy Cross
May 28, 2026
AI8 MIN
Why the Best Agent-Native Apps Use Less AI
WRITTEN BYMatt Abrams
May 26, 2026
Design8 MIN
Designing Generative UI in an Agent-Native World
WRITTEN BYAlice Moore
May 26, 2026