
Apple готовится к выпуску AI-устройств нового поколения, и свежая разработка команды Machine Learning Research может подсказать, каким будет их «ум» под капотом. Речь о FastVLM — визуально-языковой модели, созданной на базе собственного фреймворка MLX, заточенного под Apple Silicon. Эта модель отличается высокой скоростью, компактностью и низкими требованиями к ресурсам, что делает её идеальной для работы прямо на устройстве — без подключения к облаку.
Слухи о новых носимых гаджетах от Apple — AI-очках и AirPods с камерами — циркулируют уже несколько месяцев. Предполагается, что релиз состоится в 2027 году, и устройства станут прямыми конкурентами Meta* Ray-Ban Smart Glasses. Хотя финальный дизайн пока неизвестен, логика подсказывает: такие гаджеты должны иметь локальные нейросети, способные интерпретировать визуальные данные без задержек.
FastVLM (Fast Visual Language Model) — это модель нового поколения, разработанная с учётом специфики Apple Silicon и возможностей фреймворка MLX. Она умеет:
В основе FastVLM лежит энкодер FastViTHD, оптимизированный для работы с изображениями высокого разрешения и минимальной задержкой.
Это критично для носимых устройств, которым нужно моментально обрабатывать визуальные данные без подключения к облаку — будь то считывание объектов, текста или реакция на жесты пользователя.
В 2023 году Apple представила MLX — фреймворк с открытым исходным кодом, оптимизированный для локального обучения и выполнения моделей на чипах Apple. Его синтаксис близок к привычным AI-инструментам, но при этом он более лёгкий и энергоэффективный — как раз то, что нужно для автономных гаджетов.
* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.