
Apple разработала искусственный интеллект, который восстанавливает трёхмерные объекты по одной фотографии с точной передачей отражений и бликов при смене угла обзора. В основе модели — объединённое представление формы и световых эффектов в едином трёхмерном скрытом пространстве.
Основная сложность прошлых методов заключалась в том, что они либо фокусировались только на геометрии, либо на статичном освещении, без учёта изменения вида объекта под разными углами. Apple решила совместить эти задачи, обучив модель сжатому представлению, включающему форму и динамические световые характеристики. Для восстановления 3D достаточно одного снимка, тогда как классические системы требуют обзора с множества точек.
Название новой разработки — LiTo, что расшифровывается как Surface Light Field Tokenization. Исследователи применили идею латентного пространства, когда такие понятия, как 3D-форма и световые характеристики, кодируются в компактные многомерные векторы. Энкодер сжимает исходное изображение в такую абстрактную форму, а декодер восстанавливает детальную 3D-модель с правильным распределением отражений и бликов при изменении ракурса.
Модель обучалась на тысячах виртуальных объектов с 150 углами обзора и тремя вариантами освещения. Система оптимизировалась для предсказания полной 3D-сцены и светового поведения даже на случайных неполных данных. Для задачи восстановления модели из одного фото был обучен отдельный модуль, который переводит плоское изображение в латентное пространство LiTo.
Отличие LiTo от других технологий — в точности и реалистичности визуализации отражений, бликов и светораспределения, которые естественно изменяются при вращении объекта. Сравнения с системой TRELLIS показывают заметное преимущество LiTo по уровню фотореализма.
Хотя метод пока далёк от внедрения в пользовательские продукты, его потенциал высок для расширенной реальности, 3D-сканирования и компьютерной графики. Конкуренты Apple, такие как Google, NVIDIA и Meta*, также активно развивают технологии 3D-моделирования с искусственным интеллектом, но подход LiTo с единым пространством для формы и света выглядит одним из наиболее продвинутых.
* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.