Memento-Skills учит ИИ-агентов переписывать свои навыки

Инфинитный символ с светящимися линиями Memento-Skills учит ИИ

Исследователи из нескольких университетов предложили фреймворк Memento-Skills, который позволяет ИИ-агентам не просто запоминать прошлые задачи, а переписывать собственные навыки без дообучения базовой модели. Для корпоративных команд это звучит не как игрушка для лаборатории, а как способ убрать дорогую и медленную рутину, которая обычно превращает автономных агентов в хрупкий прототип.

Логика тут простая и неприятная для любителей «магии LLM». После запуска модель замораживается, а дальше бизнес хочет, чтобы она училась на лету, не трогая веса и не собирая заново датасеты. Memento-Skills пытается решить именно этот конфликт. Вместо памяти в стиле «потом разберёмся» система хранит растущую библиотеку исполнимых навыков, которые агент может обновлять по мере работы.

Как Memento-Skills хранит навыки

Фреймворк ведёт себя как внешняя эволюционирующая память. Навыки хранятся в структурированных markdown-файлах и включают описание задачи, инструкции для рассуждения, а также код и вспомогательные скрипты. То есть это не очередной «умный» журнал событий, а набор артефактов, которые агент реально может исполнять и править.

Когда агент сталкивается с новой задачей, он не выбирает первый попавшийся кусок текста по сходству embedding-ов, как это часто делают обычные RAG-системы. Он обращается к специализированному маршрутизатору навыков, который ищет не самый похожий, а самый полезный для поведения вариант. После выполнения и обратной связи система может переписать код, поменять промпт или создать новый навык. Для производственной среды это важнее, чем звучит: ручное создание навыков и дообучение весов стоят времени, денег и терпения, а у автоматизации с этим традиционно плохо.

Результаты Memento-Skills на GAIA и Humanity’s Last Exam

Проверяли систему на 2 бенчмарках: GAIA, где нужны многошаговые рассуждения, работа с вебом и инструментами, и Humanity’s Last Exam, где задачи уже ближе к академическому экзамену для тех, кто не поленился открыть 8 дисциплин. В основе системы использовали Gemini-3.1-Flash, а сравнивали её с базовой Read-Write схемой и стандартными методами семантического поиска вроде BM25 и Qwen3 embeddings.

Цифры выглядят достаточно грубо, чтобы их не списать на удачное совпадение. На GAIA точность выросла до 66,0% против 52,3% у статической базы, то есть на 13,7 процентного пункта. На HLE результат прыгнул с 17,9% до 38,7%. А end-to-end успешность задач система подняла до 80% против 50% у обычного BM25. Это уже не косметика, а разница между агентом, который «что-то помнит», и агентом, который начинает отрабатывать опыт.

Особенно показательно, с чего всё начиналось. Обе серии экспериментов стартовали всего с 5 базовых навыков, вроде веб-поиска и работы с терминалом. Дальше библиотека разрослась до 41 навыка на GAIA и до 235 на HLE. И вот тут становится видно, почему такой подход может прижиться в workflows лучше, чем в хаотичных сценариях: когда задачи повторяются и имеют структуру, память начинает работать как капитал, а не как склад мусора.

Где Memento-Skills приживётся

Авторы уже выложили код на GitHub, так что это не очередной слайд из презентации, а вещь, которую можно ковырять руками. Но применять её везде подряд было бы плохой идеей. Сам фреймворк лучше всего выглядит там, где задачи повторяются, а не разлетаются в разные стороны, как это часто бывает в физическом мире или в длинных многоходовых сценариях с кучей развилок.

У системы есть и защита от собственного самоуверенного саботажа. Перед сохранением изменений она прогоняет синтетический тест и проверяет результат через automatic unit-test gate. Хорошо, конечно, что агент не может бесконечно переписывать себя в никуда, но промышленная эксплуатация всё равно упрётся в нормальную оценку качества и в жёсткий контроль. Самомодифицирующийся ИИ без внятной judge-системы быстро превращается в дорогую игрушку для людей, которым нравится слово «автономия».

Максим Третьяков

Технический обозреватель, пишет в основном про рынок мобильных телефонов и автомобильные технологии. Максим подготовил 740 материалов, в которых анализирует запуск флагманских линеек смартфонов (включая бренды Xiaomi и Apple), развитие нейросетевых функций в потребительских гаджетах и актуальное состояние отечественного автопрома. Его экспертиза охватывает как аппаратные новинки — от концептов видеокарт до умных колец, — так и правовые аспекты технологического рынка.