Un estudiante de secundaria construyó un sitio web que te permite desafiar a los modelos de inteligencia artificial en una competencia de construcción de Minecraft

A medida que las técnicas de evaluación convencionales de IA resultan inadecuadas, los constructores de IA están recurriendo a formas más creativas para evaluar las capacidades de los modelos de IA generativa. Para un grupo de desarrolladores, eso es Minecraft, el juego sandbox de construcción propiedad de Microsoft.

El sitio web Minecraft Benchmark (o MC-Bench) fue desarrollado colaborativamente para enfrentar a los modelos de IA entre sí en desafíos directos para responder a las indicaciones con creaciones de Minecraft. Los usuarios pueden votar por qué modelo hizo un mejor trabajo, y solo después de votar pueden ver qué IA realizó cada construcción de Minecraft.

Créditos de la imagen: Minecraft Benchmark (se abre en una ventana nueva)

Para Adi Singh, el estudiante de último año que comenzó MC-Bench, el valor de Minecraft no radica tanto en el juego en sí, sino en la familiaridad que la gente tiene con él; después de todo, es el videojuego más vendido de todos los tiempos. Incluso para personas que no han jugado el juego, todavía es posible evaluar cuál representación de un piña más cuadrada está mejor realizada.

‘Minecraft permite a las personas ver el progreso [del desarrollo de IA] de una manera mucho más fácil’, dijo Singh a TechCrunch. ‘La gente está acostumbrada a Minecraft, acostumbrada al aspecto y el ambiente’.

MC-Bench actualmente lista ocho personas como colaboradores voluntarios. Anthropic, Google, OpenAI y Alibaba han subvencionado el uso de sus productos para ejecutar indicaciones de benchmark en el proyecto, según el sitio web de MC-Bench, pero las empresas no están afiliadas de ninguna otra manera.

‘Actualmente estamos haciendo construcciones simples para reflexionar sobre lo lejos que hemos llegado desde la era de GPT-3, pero [podríamos] vernos escalando a estos planes más largos y tareas orientadas a objetivos’, dijo Singh. ‘Los juegos podrían ser simplemente un medio para probar el razonamiento agente que es más seguro que en la vida real y más controlable para propósitos de prueba, lo que lo hace más ideal a mis ojos’.

Otros juegos como Pokémon Rojo, Street Fighter y Pictionary se han utilizado como benchmarks experimentales para la IA, en parte porque el arte de calibrar la IA es notoriamente complicado.

Los investigadores a menudo prueban los modelos de IA en evaluaciones estandarizadas, pero muchas de estas pruebas le dan a la IA una ventaja en su terreno. Debido a la forma en que están entrenados, los modelos son naturalmente hábiles en ciertos tipos estrechos de resolución de problemas, particularmente resolución de problemas que requiere memorización mecánica o extrapolación básica.

En pocas palabras, es difícil discernir lo que significa que el GPT-4 de OpenAI pueda obtener un puntaje en el percentil 88 en el LSAT, pero no pueda discernir cuántas Rs hay en la palabra 'fresa'. El soneto Claude 3.7 de Anthropic logró una precisión del 62.3% en un benchmark estandarizado de ingeniería de software, pero es peor jugando Pokémon que la mayoría de los niños de cinco años.

Créditos de la imagen: Minecraft Benchmark

MC-Bench es técnicamente un benchmark de programación, ya que se pide a los modelos que escriban código para crear la construcción solicitada, como 'Frosty el muñeco de nieve' o 'una encantadora cabaña tropical en una playa de arena prístina’.

Pero es más fácil para la mayoría de los usuarios de MC-Bench evaluar si un muñeco de nieve se ve mejor que indagar en el código, lo que le da al proyecto un atractivo más amplio y, por lo tanto, el potencial de recopilar más datos sobre qué modelos obtienen consistentemente mejores puntajes.

Si esos puntajes significan mucho en cuanto a utilidad de IA es motivo de debate, por supuesto. Singh afirma que son una señal fuerte, sin embargo.

‘La tabla de clasificación actual refleja bastante de cerca mi propia experiencia al usar estos modelos, lo cual es diferente a muchos benchmarks de texto puros’, dijo Singh. ‘Tal vez [MC-Bench] podría ser útil para las empresas para saber si van en la dirección correcta’.