Ollama ускорила локальный запуск ИИ-моделей на Mac с MLX

Ollama выпустила обновление, которое ускоряет локальный запуск ИИ-моделей на Mac с Apple silicon за счёт MLX, собственного фреймворка Apple для машинного обучения. Для пользователей это не косметическая правка, а вполне ощутимый бонус: промпты обрабатываются примерно в 1,6 раза быстрее, а генерация ответов почти вдвое ускоряется.

Это особенно заметно на Mac с чипами Apple silicon и более чем 32 ГБ объединённой памяти: именно для них доступен preview-релиз Ollama 0.19. Поддержка пока ограничена Alibaba Qwen3.5, но в Ollama уже обещают расширить список моделей. На фоне того, как Apple постепенно заталкивает ML-задачи глубже в собственную экосистему, Ollama делает очевидный ход — берёт то, что уже оптимизировано под её чипы, и выжимает из этого дополнительную скорость.

Что изменилось в Ollama 0.19

По данным Ollama, в новой версии ускорен и этап подготовки текста к ответу, и собственно выдача результата. Первый показатель — prefill speed — вырос примерно в 1,6 раза, второй — decode speed — почти удвоился. Это тот редкий случай, когда маркетинг не пытается продать абстрактное «ускорение», а говорит языком вполне конкретных узких мест.

Обновление доступно в виде preview-релиза Ollama 0.19, но есть условие: нужен Mac с более чем 32 ГБ объединённой памяти. Поддержка пока ограничена Alibaba Qwen3.5, однако в Ollama уже обещают расширить список моделей. То есть перед нами не универсальная магия, а ранний, но показательный заход на территорию, где у конкурентов вроде LM Studio и Jan тоже идёт гонка за локальную скорость и удобство.

Почему M5-серия получит больше всех

Самый заметный прирост обещан для Mac с чипами M5-серии — и это логично, потому что Apple начала добавлять в GPU Neural Accelerators, которые как раз и должны разгонять такие задачи. Для приложений вроде персональных ассистентов и кодовых агентов это важнее, чем сухие бенчмарки: если модель отвечает быстрее и меньше тупит на длинной переписке, у пользователя меньше причин закрыть окно и вернуться к старому облачному сервису.

Ollama отдельно упоминает OpenClaw, Claude Code, OpenCode и Codex как сценарии, где новый режим должен ощущаться особенно заметно. И это хороший сигнал для рынка локального ИИ: пока одни спорят о «суверенности» моделей, другие просто оптимизируют железо и забирают себе аудиторию, которой надо, чтобы чат не задумывался на каждом втором сообщении.

Сейчас вопрос только в том, как быстро Ollama расширит поддержку моделей и насколько стабильно MLX покажет себя за пределами короткого списка совместимых сценариев. Если всё пойдёт по плану, локальный ИИ на Mac станет ещё менее похож на компромисс, а Apple получит ещё один аргумент в пользу собственной аппаратно-программной связки.