Исследование Apple выявило серьёзный недостаток ИИ в моделях OpenAI и Google

Исследователи Apple обнаружили, что возможности логического мышления больших языковых моделей могут быть не такими продвинутыми, как казалось ранее!

Большие языковые модели (LLMs) от OpenAI, Google и других компаний давно считаются образцом передовых технологий в области искусственного интеллекта благодаря своим впечатляющим навыкам логического мышления. Однако новое исследование от команды Apple показывает, что их интеллект может быть не чем иным, как сложным сопоставлением паттернов, а не настоящим логическим рассуждением.

Содержание

1. Проблемы с тестами и загрязнение данных

2. «Хрупкость» логики моделей

3. Пример с киви: тест на способность различать важные и неважные данные

4. Критический недостаток логического мышления

5. Интересы Apple в AI-исследованиях

Проблемы с тестами и загрязнение данных

Наиболее распространённым тестом для оценки логического мышления является GSM8K, но из-за его популярности существует риск загрязнения данных. Это означает, что языковые модели могли быть обучены на ответах, а не выводить их через встроенные способности. Чтобы проверить эту гипотезу, исследователи Apple разработали новый тест под названием GSM-Symbolic, который сохраняет суть задач по логике, но меняет переменные: имена, числа, уровень сложности и добавляет лишнюю информацию.

Результаты оказались неожиданными: при изменении переменных производительность всех протестированных моделей заметно снизилась. В исследовании были протестированы более 20 моделей, включая OpenAI o1, GPT-4o, Google Gemma 2 и Llama 3. Независимо от модели, их точность падала при любых изменениях в условиях задачи.

«Хрупкость» логики моделей

Исследователи отметили, что при простом изменении имён или чисел точность решения задач уменьшалась на несколько процентных пунктов. Например, модели OpenAI показали лучшие результаты по сравнению с другими моделями с открытым исходным кодом, но различия всё равно оказались значимыми. Важно отметить, что такой разброс в результатах не должен был происходить, если бы модели действительно обладали сильными навыками логического мышления.

Однако самое интересное началось, когда исследователи добавили в задачи так называемые «кажущиеся релевантными, но на самом деле несущественные утверждения». Цель этого эксперимента заключалась в том, чтобы проверить гипотезу, что LLMs больше полагаются на сопоставление паттернов, чем на реальное понимание логики.

Пример с киви: тест на способность различать важные и неважные данные

Для этого исследования модели тестировались на решении задач, в которые добавлялись лишние детали. Например:

«Оливер собирает 44 киви в пятницу, 58 — в субботу. В воскресенье он собирает вдвое больше киви, чем в пятницу, но пять из них оказались чуть меньшего размера. Сколько всего киви у Оливера?»

Результаты показали значительное снижение точности. Модель OpenAI o1 Preview показала лучшее снижение точности — на 17,5%, однако у Microsoft Phi 3 результаты упали на целых 65%. В примере с киви, модели часто вычитали пять киви меньшего размера из общего количества, хотя размер плодов не был важен для решения задачи. Это подтверждает гипотезу исследователей, что модели конвертируют утверждения в операции, не понимая их смысла.

Критический недостаток логического мышления

Авторы исследования не скрывали серьёзности своих выводов. Проверка моделей на задачах с лишней информацией выявила «критический недостаток в способности LLMs понимать математические концепции и различать релевантные данные для решения задач».

Интересы Apple в AI-исследованиях

Стоит отметить, что исследование было проведено Apple, которая является конкурентом Google и даже OpenAI, несмотря на партнёрство с последней. Apple также работает над собственными моделями искусственного интеллекта, и это может объяснять их интерес к изучению недостатков моделей других компаний.

Тем не менее, выявленные в исследовании проблемы логического мышления ИИ невозможно игнорировать. Эти результаты служат напоминанием о том, что, несмотря на все успехи в области искусственного интеллекта, важно сохранять здоровую долю скептицизма и не переоценивать возможности современных технологий.