Исследование Apple выявило серьёзный недостаток ИИ в моделях OpenAI и Google
Исследователи Apple обнаружили, что возможности логического мышления больших языковых моделей могут быть не такими продвинутыми, как казалось ранее!
Большие языковые модели (LLMs) от OpenAI, Google и других компаний давно считаются образцом передовых технологий в области искусственного интеллекта благодаря своим впечатляющим навыкам логического мышления. Однако новое исследование от команды Apple показывает, что их интеллект может быть не чем иным, как сложным сопоставлением паттернов, а не настоящим логическим рассуждением.
Содержание
Проблемы с тестами и загрязнение данных
Наиболее распространённым тестом для оценки логического мышления является GSM8K, но из-за его популярности существует риск загрязнения данных. Это означает, что языковые модели могли быть обучены на ответах, а не выводить их через встроенные способности. Чтобы проверить эту гипотезу, исследователи Apple разработали новый тест под названием GSM-Symbolic, который сохраняет суть задач по логике, но меняет переменные: имена, числа, уровень сложности и добавляет лишнюю информацию.
Результаты оказались неожиданными: при изменении переменных производительность всех протестированных моделей заметно снизилась. В исследовании были протестированы более 20 моделей, включая OpenAI o1, GPT-4o, Google Gemma 2 и Llama 3. Независимо от модели, их точность падала при любых изменениях в условиях задачи.
«Хрупкость» логики моделей
Исследователи отметили, что при простом изменении имён или чисел точность решения задач уменьшалась на несколько процентных пунктов. Например, модели OpenAI показали лучшие результаты по сравнению с другими моделями с открытым исходным кодом, но различия всё равно оказались значимыми. Важно отметить, что такой разброс в результатах не должен был происходить, если бы модели действительно обладали сильными навыками логического мышления.
Однако самое интересное началось, когда исследователи добавили в задачи так называемые «кажущиеся релевантными, но на самом деле несущественные утверждения». Цель этого эксперимента заключалась в том, чтобы проверить гипотезу, что LLMs больше полагаются на сопоставление паттернов, чем на реальное понимание логики.
Пример с киви: тест на способность различать важные и неважные данные
Для этого исследования модели тестировались на решении задач, в которые добавлялись лишние детали. Например:
«Оливер собирает 44 киви в пятницу, 58 — в субботу. В воскресенье он собирает вдвое больше киви, чем в пятницу, но пять из них оказались чуть меньшего размера. Сколько всего киви у Оливера?»
Результаты показали значительное снижение точности. Модель OpenAI o1 Preview показала лучшее снижение точности — на 17,5%, однако у Microsoft Phi 3 результаты упали на целых 65%. В примере с киви, модели часто вычитали пять киви меньшего размера из общего количества, хотя размер плодов не был важен для решения задачи. Это подтверждает гипотезу исследователей, что модели конвертируют утверждения в операции, не понимая их смысла.
Критический недостаток логического мышления
Авторы исследования не скрывали серьёзности своих выводов. Проверка моделей на задачах с лишней информацией выявила «критический недостаток в способности LLMs понимать математические концепции и различать релевантные данные для решения задач».
Интересы Apple в AI-исследованиях
Стоит отметить, что исследование было проведено Apple, которая является конкурентом Google и даже OpenAI, несмотря на партнёрство с последней. Apple также работает над собственными моделями искусственного интеллекта, и это может объяснять их интерес к изучению недостатков моделей других компаний.
Тем не менее, выявленные в исследовании проблемы логического мышления ИИ невозможно игнорировать. Эти результаты служат напоминанием о том, что, несмотря на все успехи в области искусственного интеллекта, важно сохранять здоровую долю скептицизма и не переоценивать возможности современных технологий.