
ИИ может быть отличным в определенных задачах, таких как написание кода или создание подкаста. Но ему трудно сдать исторический экзамен высокого уровня, утверждает новая статья.
Команда исследователей создала новый бенчмарк для тестирования трех крупных языковых моделей (LLM) - GPT-4 от OpenAI, Llama от Meta и Gemini от Google - на исторические вопросы. Бенчмарк Histor-LLM проверяет правильность ответов в соответствии с базой данных Seshat Global History, обширной базой знаний о истории, названной в честь древнеегипетской богини мудрости.
Результаты, представленные в прошлом месяце на высокопрофильной конференции по искусственному интеллекту NeurIPS, оказались разочаровывающими, по мнению исследователей из Института комплексных научных исследований (Complexity Science Hub, CSH), базирующегося в Австрии. Лучше всего справилась с задачей LLM GPT-4 Turbo, но ее точность составила около 46% - намного выше уровня случайного угадывания.
"Основной вывод из этого исследования заключается в том, что LLM, хоть и впечатляющие, все еще не обладают достаточной глубиной понимания, необходимой для продвинутого изучения истории. Они прекрасно справляются с базовыми фактами, но когда дело доходит до более тонкого, на уровне аспирантуры исторического исследования, им пока не по плечу", - сказала Мария дель Рио-Чанона, один из соавторов статьи и доцент по компьютерным наукам в Университетском колледже Лондона.
Исследователи предоставили TechCrunch образцы исторических вопросов, на которые LLM дали неправильные ответы. Например, GPT-4 Turbo спросили, была ли в определенный исторический период в Древнем Египте присутствует чешуйчатая броня. LLM ответил да, но эта технология появилась в Египте только через 1500 лет.
Почему LLM плохо справляются с ответами на технические исторические вопросы, когда им удается так хорошо отвечать на очень сложные вопросы, связанные с кодированием? Мария дель Рио-Чанона сказала TechCrunch, что это вероятно потому, что LLM склонны экстраполировать из исторических данных, которые являются очень яркими, и они испытывают затруднения в извлечении более малоизвестных исторических знаний.
Например, исследователи спросили GPT-4, была ли у Древнего Египта профессиональная стоячая армия в определенный исторический период. В то время как правильным ответом является отрицательный ответ, LLM неправильно ответил, что она была. Это вероятно потому, что существует много общедоступной информации о том, что у других древних империй, таких как Персия, были стоячие армии.
"Если вам 100 раз говорят A и B, и 1 раз C, а затем вам задают вопрос о C, вы, вероятно, просто запомните A и B и попытаетесь экстраполировать из них", - сказала дель Рио-Чанона.
Исследователи также выявили другие тенденции, включая то, что модели OpenAI и Llama показали себя хуже для некоторых регионов, таких как южно-сахарская Африка, что указывает на потенциальные предвзятости в их тренировочных данных.
Результаты показывают, что LLM все еще не являются заменой для людей в некоторых областях, сказал Питер Турчин, руководивший исследование и являющийся преподавателем в CSH.
Но исследователи все еще надеются, что LLM могут помочь историкам в будущем. Они работают над усовершенствованием своего бенчмарка путем включения большего количества данных из недостаточно представленных регионов и добавления более сложных вопросов.
"В целом, хотя наши результаты подчеркивают области, где LLM нуждаются в улучшении, они также подчеркивают потенциал этих моделей для помощи в исторических исследованиях", - гласит текст статьи.