Эксперты МФТИ в качестве эксперимента протестировали генеративную нейросеть Chat GPT-4 Turbo в решении задач ЕГЭ по физике.
По итоговым результатам искусственный интеллект не дотянул до успешного абитуриента МФТИ и получил менее 85 баллов — ниже проходного барьера для Физтеха, допустив несколько очевидных ошибок, сообщили представители МФТИ.
Задачи разделов физики, по механике, оптике, термодинамике, электричеству, кинематике, разобрал кандидат физико-математических наук, преподаватель МФТИ и эксперт по работе со школьниками Леонид Колдунов. По его словам, ошибки нейросети в решении и объяснении задач касались как финальных расчетов, так и использования терминов в решении и понимании физики процесса. Кроме того, иногда ИИ делал совсем нелогичные выводы, путаясь в формулировке ответа.
«Успешные решения GPT ограничиваются простыми задачами, требующими формального подхода. Он не способен анализировать процессы или явления, требующие фантазии или более сложных объяснений. Также он не способен интерпретировать условия. Например, он не смог решить задачу, в которой сказано, что длина волны изменится в два раза, но не указано, увеличится она или уменьшится. Здесь нейросеть не смогла выполнить анализ, только описать формулы и ими оперировать. Безусловно, с таким уровнем знаний нейросеть не смогла бы поступить в МФТИ», – сказал Леонид Колдунов.
Эксперимент решения задач с помощью Chat GPT-4 также удалось оценить главному аналитику Центра искусственного интеллекта МФТИ, директору конференции по ИИ OpenTalks.AI Игорю Пивоварову. По его словам, несмотря на допущенные ошибки и невозможность творческого подхода в решении задач, модели генеративного интеллекта можно обучить.
«Меня в целом не удивляет, что система не решает сложно составленные задачи, так как у всех этих систем, в частности, у Chat GPT, есть проблемы с математикой и с логикой, с цепью рассуждений. Люди, для того чтобы повысить точность модели, дают ей определенные промты и контекст, которые сильно повышают качество. Когда нейросеть начинает рассуждать по шагам, качество ответа сильно вырастает», — отметил Игорь Пивоваров.
Одним из ключевых выводов экспертов является то, что пока у всего класса подобных систем ИИ есть проблемы с цепью логических рассуждений, несмотря на то, что в отдельных примерах они демонстрируют ее приемлемый уровень. В целом, параметр последовательной логики у них пока на порядок ниже, чем у человека, поэтому при решении сложных, требующих нетривиальных ходов, математических задач генеративные модели допускают ошибки.
Игорь Пивоваров апеллирует к известному «утиному тесту»: «Если нечто ходит, как утка, крякает как утка и похоже на утку, то наверное, это и есть утка. Но, на самом деле, не факт, что это утка. В этом смысле, если модель выдает текст, похожий на человеческий, это не означает, что у нее есть понимание. Одно дело выдать правильный ответ на задачу, а другое дело — понимать глубинно физику. Ощущение понимания есть, но оно иллюзорно».