stk071 apple n.jpg
Автор:

Учёные из Apple представили исследование, показавшее, что большие языковые модели (LLM) могут значительно повысить точность выполнения заданий, если использовать старый и проверенный инструмент — чек-листы.

Содержание
1. Контекст: как обычно обучают языковые модели
2. Что предложили исследователи Apple
3. Результаты исследования
4. Ограничения подхода
5. Почему это важно

Контекст: как обычно обучают языковые модели

После обучения LLM проходит этап донастройки с помощью метода Reinforcement Learning from Human Feedback (RLHF). На этом этапе люди-ассессоры оценивают ответы модели: «лайк» усиливает вероятность похожего ответа в будущем, «дизлайк» — снижает. Такой подход помогает сделать ответы полезнее и безопаснее.


Однако у RLHF есть слабые места. Модель может научиться выдавать «правильные на вид» ответы, которые на самом деле не решают задачу, лишь создавая иллюзию правильности.

apple rlcf scheme.jpg

Что предложили исследователи Apple

В статье “Checklists Are Better Than Reward Models For Aligning Language Models” компания предложила новый метод — Reinforcement Learning from Checklist Feedback (RLCF).


Он работает так:

  • Вместо общей оценки «нравится/не нравится» ответы модели проверяются по списку конкретных пунктов («Переведено ли на испанский?», «Есть ли форматирование?» и т. п.).
  • Каждый пункт оценивается по шкале от 0 до 100.
  • Более мощная модель («учитель») проверяет ответы и выставляет баллы, которые становятся сигналом для дообучения основной («студентской») модели.

Apple даже создала датасет WildChecklists с 130 000 инструкций и автоматически сгенерированными чек-листами.


apple rlcf benchmarks 2.jpg

Результаты исследования

Используя метод RLCF, исследователи протестировали модель Qwen2.5-7B-Instruct на пяти популярных бенчмарках. Результаты показали стабильное улучшение по всем метрикам:

  • +4 пункта в FollowBench,
  • +6 пунктов в InFoBench,
  • +3 пункта в Arena-Hard.

В отдельных тестах улучшение достигало 8,2%. Это делает чек-листы более эффективным методом, чем классические reward-модели.


Ограничения подхода

  • Метод фокусируется на сложных многошаговых инструкциях, но может быть менее полезен в других сценариях.
  • Для проверки требуется более мощная модель, что делает процесс ресурсоёмким.
  • Важно: RLCF улучшает следование инструкциям, но не решает проблему безопасности моделей.
apple rlcf benchmarks.jpg

Почему это важно

Авторы подчёркивают: с ростом популярности LLM в роли персональных ассистентов пользователи ждут, что модели будут строго и точно выполнять сложные пошаговые задания. В будущем, когда такие ассистенты получат больше автономии, точность следования инструкциям станет ключевым фактором их полезности.

Источник: 9to5mac
Ещё по теме:

Комментарии запрещены.