Школьник создал веб-сайт, который позволяет вызывать модели искусственного интеллекта на соревнование по построению в Minecraft

Поскольку традиционные методы оценки искусственного интеллекта оказываются недостаточными, строители ИИ обращаются к более творческим способам оценки возможностей генеративных моделей ИИ. Для одной группы разработчиков это Minecraft, песочница Microsoft для строительства игр.

Веб-сайт Minecraft Benchmark (или MC-Bench) был разработан совместно для соперничества моделей ИИ в головных вызовах по отклику на запросы с творениями Minecraft. Пользователи могут голосовать за то, какая модель лучше справилась с заданием, и только после голосования они могут увидеть, какой ИИ создал каждое строение в Minecraft.

Кредиты за изображение: Minecraft Benchmark (откроется в новом окне)

Для Ади Сингха, ученика 12 класса, который начал MC-Bench, ценность Minecraft заключается не столько в самой игре, сколько в знакомстве людей с ней - в конце концов, она является самой продаваемой видеоигрой всех времен. Даже для тех, кто не играл в игру, по-прежнему возможно оценить, какое блочное изображение ананаса лучше выполнено.

"Minecraft позволяет людям намного проще увидеть прогресс [развития ИИ]," - сказал Сингх Лайну TechCrunch. "Люди привыкли к Minecraft, знают его внешний вид и атмосферу."

На данный момент MC-Bench включает в себя восьмерых добровольных участников. Компании Anthropic, Google, OpenAI и Alibaba спонсировали использование своих продуктов для запуска бенчмарк-заданий, согласно веб-сайту MC-Bench, но компании не имеют других связей.

"В настоящее время мы просто делаем простые построения, чтобы отразить, насколько мы продвинулись с эры GPT-3, но [мы] можем видеть, как мы масштабируемся на более длинные планы и целевые задачи," - сказал Сингх. "Игры могут быть просто средством для тестирования агентного мышления, которое безопаснее, чем в реальной жизни, и более контролируемо для целей тестирования, что делает его более идеальным в моих глазах."

Для тестирования ИИ также использовались другие игры, такие как Pokémon Red, Street Fighter и Pictionary, в частности, потому что искусство оценки ИИ известно своей сложностью.

Исследователи часто тестируют модели ИИ на стандартизированных оценках, но многие из этих тестов дают преимущество ИИ на его поле. Из-за того, как они обучены, модели естественным образом обладают способностями к определенным, узким видам решения проблем, особенно к решению проблем, требующих механического запоминания или базового экстраполяции.

Простыми словами, трудно понять, что означает то, что GPT-4 от OpenAI может набрать 88-й процентиль на LSAT, но не может определить, сколько букв 'р' в слове "клубника". Claude 3.7 Sonnet из Anthropic достиг 62,3% точности на стандартизированном бенчмарке программной инженерии, но хуже играет в Pokémon, чем большинство пятилетних детей.

Кредиты за изображение: Minecraft Benchmark

MC-Bench технически является бенчмарком программирования, поскольку модели просят написать код для создания предложенного строения, например, "Снеговик" или "очаровательный тропический пляжный домик на чистом песчаном берегу".

Однако большинству пользователей MC-Bench проще оценить, выглядит ли снеговик лучше, чем изучить код, что придает проекту более широкую привлекательность - и, следовательно, потенциал для получения большего количества данных о том, какие модели стабильно набирают более высокие баллы.

Конечно, вопрос о том, насколько эти баллы означают для практической пользы ИИ, подлежит обсуждению. Сингх утверждает, что это сильный сигнал.

"Текущая таблица лидеров довольно близка к моему собственному опыту использования этих моделей, что нехарактерно для многих чистых текстовых бенчмарков," - сказал Сингх. "Возможно, [MC-Bench] мог бы быть полезен компаниям, чтобы понять, движутся ли они в правильном направлении."