Anthropic presentó Claude Sonnet 5, una versión mejorada y más agentica de su modelo de tamaño medio. Según la compañía, este lanzamiento marca un paso importante porque permite ejecutar tareas complejas de forma autónoma, algo que hasta hace poco solo conseguían los modelos más grandes y caros.
El modelo puede planificar, usar herramientas como navegadores y terminales, y llevar adelante trabajos sin intervención constante de una persona. Esto se alinea con lo que vienen haciendo otras empresas del sector, donde las capacidades agenticas ya son un estándar mínimo en todos los niveles de precio.
Lo que ahora diferencia a los modelos no es solo quién hace mejor el trabajo agentico, sino quién lo hace más barato y confiable sin supervisión humana.
Mejor rendimiento a menor costo
Sonnet 5 promete un desempeño cercano al del Opus 4.8, pero con costos mucho más bajos. Desde este martes, se convirtió en el modelo predeterminado para los planes gratuitos y Pro, y está disponible para todas las suscripciones.
En el lanzamiento, el precio es de 2 dólares por millón de tokens de entrada y 10 dólares por millón de salida hasta el 31 de agosto. Después, sube a 3 y 15 dólares respectivamente. Esto lo hace más económico que Opus 4.8, el GPT-5.5 de OpenAI y el Gemini 3.1 Pro de Google.
Comparado con su antecesor Sonnet 4.6, lanzado en febrero, muestra mejoras claras en razonamiento, uso de herramientas, codificación y tareas de conocimiento. En un benchmark de codificación agentica, por ejemplo, alcanzó un 63,2%, superando el 58,1% del modelo anterior y acercándose al 69,2% de Opus.
En tareas de conocimiento, incluso supera levemente a Opus 4.8 en algunos casos. “Opus sigue siendo ideal para mayor precisión en problemas complejos, pero Sonnet 5 ofrece a los desarrolladores opciones más baratas y de mayor calidad que antes”, indicó Anthropic.
Mejoras en tareas complejas y seguridad
Los testers destacaron que el modelo completa tareas complejas donde versiones anteriores se detenían. Además, verifica su propia salida sin que se lo pidan explícitamente. Un ingeniero de Zapier contó que le asignó una tarea de dos partes —actualizar tiers de cuentas en Salesforce y enviar un anuncio a contactos empresariales— y el modelo la terminó de principio a fin.
En seguridad, Sonnet 5 reduce comportamientos no deseados como cooperación con usos indebidos o engaños. Es mejor rechazando pedidos maliciosos y evitando ataques de inyección de prompts. También alucina menos y muestra menos comportamiento sicofántico que su predecesor.
Aunque no alcanza el nivel de Opus 4.8 en algunos aspectos de alineación, sus evaluaciones muestran menor capacidad para tareas de ciberseguridad peligrosas. Fabian Hedin, de Lovable, valoró que el modelo rechaza pedidos inseguros de forma limpia y consistente.