Claude de Anthropic añade un campo de juego rápido para mejorar rápidamente tus aplicaciones de IA

La ingeniería de prompts se convirtió en un trabajo popular el año pasado en la industria de la IA, pero parece que Anthropic ahora está desarrollando herramientas para automatizarla al menos parcialmente.

Anthropic lanzó varias nuevas características el martes para ayudar a los desarrolladores a crear aplicaciones más útiles con el modelo de lenguaje de la startup, Claude, según una publicación en el blog de la empresa. Los desarrolladores ahora pueden usar Claude 3.5 Sonnet para generar, probar y evaluar prompts, utilizando técnicas de ingeniería de prompts para crear mejores entradas y mejorar las respuestas de Claude para tareas especializadas.

Los modelos de lenguaje suelen ser bastante tolerantes cuando se les pide que realicen algunas tareas, pero a veces pequeños cambios en la redacción de un prompt pueden llevar a grandes mejoras en los resultados. Normalmente tendrías que descubrir esa redacción tú mismo o contratar a un ingeniero de prompts para que lo haga, pero esta nueva característica ofrece una retroalimentación rápida que podría facilitar la búsqueda de mejoras.

Las características se encuentran dentro de Anthropic Console en una nueva pestaña de Evaluación. Console es la cocina de pruebas de la startup para desarrolladores, creada para atraer a empresas que buscan construir productos con Claude. Una de las características, presentada en mayo, es el generador de prompts incorporado de Anthropic; este toma una breve descripción de una tarea y construye un prompt mucho más largo y detallado, utilizando las propias técnicas de ingeniería de prompts de Anthropic. Si bien las herramientas de Anthropic pueden no reemplazar por completo a los ingenieros de prompts, la empresa dijo que ayudaría a los nuevos usuarios y ahorraría tiempo a los ingenieros de prompts experimentados.

Dentro de Evaluación, los desarrolladores pueden probar la eficacia de los prompts de sus aplicaciones de IA en una variedad de escenarios. Los desarrolladores pueden cargar ejemplos del mundo real en un conjunto de pruebas o pedir a Claude que genere una serie de casos de prueba generados por IA. Luego los desarrolladores pueden comparar la eficacia de varios prompts lado a lado y calificar las respuestas de muestra en una escala de cinco puntos.

Se alimenta un prompt de datos generados para encontrar respuestas buenas y malas.
Créditos de la imagen: Anthropic

En un ejemplo de la publicación en el blog de Anthropic, un desarrollador identificó que su aplicación daba respuestas demasiado cortas en varios casos de prueba. El desarrollador pudo ajustar una línea en su prompt para hacer que las respuestas fueran más largas y aplicarlo simultáneamente a todos sus casos de prueba. Eso podría ahorrar mucho tiempo y esfuerzo a los desarrolladores, especialmente a aquellos con poca o ninguna experiencia en ingeniería de prompts.

El CEO y cofundador de Anthropic, Dario Amodei, dijo que la ingeniería de prompts era una de las cosas más importantes para la adopción empresarial generalizada de la IA generativa en una entrevista de Google Cloud Next a principios de este año. "Suena simple, pero 30 minutos con un ingeniero de prompts a menudo pueden hacer que una aplicación funcione cuando antes no lo hacía," dijo Amodei.