PDP-11 научил трансформер за 3,5 минуты

Ветеран Microsoft Дэйв Пламмер показал, что даже процессор из 1979 года способен тянуть обучение трансформера, если не пытаться делать из него современный сервер. На старом PDP-11 он добился 100% точности за 350 шагов, и весь эксперимент занял 3,5 минуты. Это, конечно, не способ построить дата-центр, но очень полезный пинок по самолюбию всем, кто любит путать «ИИ» и «кучу дорогих чипов».
Что именно запустили на PDP-11
Пламмер взял мини-ЭВМ PDP-11, у которой всего 6 МГц и 64 КБ оперативной памяти. Для задачи он использовал модель трансформера под названием ATTN-11, написанную на ассемблере PDP-11, то есть без привычной нам роскоши вроде высокоуровневых фреймворков и облачных ускорителей.
Задание было почти игрушечным, но именно в таких игрушках обычно и прячется суть. Модель должна была научиться переворачивать последовательность из восьми цифр. В этой миниатюрной задаче есть ровно то, что любят современные языковые модели: не просто запоминание, а вывод структурного правила по примеру.
Почему этот эксперимент не выглядит шуткой
Сам Пламмер считает, что такой тест показывает механику линейного вывода, которую обычно обсуждают вокруг GPT и похожих систем. Ирония в том, что для демонстрации принципа ему не понадобился ни кластер, ни GPU, ни привычный маркетинговый туман про «следующее поколение». Иногда достаточно железки, которую многие современные разработчики сочли бы музейным экспонатом.
Параллельно это напоминает ещё одну вещь: большинство громких разговоров об ИИ завязано не только на алгоритмы, но и на грубую вычислительную мощность. По сравнению с SoC Apple M2 Ultra, который Пламмер ранее оценивал как более чем в 200 000 раз быстрее PDP-11 в однопоточном режиме, его эксперимент выглядит почти издевательством над индустрией. Но именно поэтому он и работает как демонстрация, а не как рекламный ролик.
Для самой идеи это плохая новость только для ленивых интерпретаций. Если модель можно обучить на таком старом железе, значит, вопрос давно не в том, «можно ли вообще», а в том, сколько вычислений индустрия на самом деле тратит на комфорт, масштаб и красивые обещания.




