OpenAI расшифровала более миллиона часов видео с YouTube, чтобы обучить GPT-4

Схема внутренней платы видеокарты с графическим процессором

Ранее на этой неделе газета The Wall Street Journal сообщила, что компании, занимающиеся разработкой искусственного интеллекта, сталкиваются с проблемой сбора высококачественных данных для обучения. Сегодня The New York Times подробно описала некоторые из способов, с помощью которых компании решают эту проблему. Неудивительно, что это связано с действиями, которые попадают в туманную серую зону закона об авторских правах на ИИ.

В начале статьи рассказывается о компании OpenAI, которая, отчаянно нуждаясь в обучающих данных, как сообщается, разработала свою модель транскрипции аудио Whisper, чтобы преодолеть трудности, расшифровав более миллиона часов видео с YouTube для обучения GPT-4, своей самой продвинутой модели большого языка. По данным The New York Times, компания знала, что это сомнительно с юридической точки зрения, но считала это добросовестным использованием. Президент OpenAI Грег Брокман лично участвовал в сборе видео, которое было использовано, пишет Times.

Представитель OpenAI Линдси Хелд сообщила, что компания собирает «уникальные» наборы данных для каждой из своих моделей, чтобы «помочь им понять мир» и поддержать конкурентоспособность своих глобальных исследований. Хельд добавила, что компания использует «множество источников, включая общедоступные данные и партнерские отношения для получения непубличных данных», и что она рассматривает возможность создания собственных синтетических данных.

В статье Times говорится, что компания исчерпала запасы полезных данных в 2021 году и, перебрав все остальные ресурсы, перешла к расшифровке видео с YouTube, подкастов и аудиокниг. К тому времени компания обучила свои модели на данных, включающих компьютерный код с Github, базы данных шахматных ходов и содержание школьных заданий с Quizlet.

Представитель Google Мэтт Брайант сообщил The Verge по электронной почте, что компания «видела неподтвержденные сообщения» о деятельности OpenAI, добавив, что «наши файлы robots.txt и условия предоставления услуг запрещают несанкционированный поиск или загрузку контента YouTube», что совпадает с условиями использования компании. На этой неделе генеральный директор YouTube Нил Мохан сказал похожие слова о возможности того, что OpenAI использовала YouTube для обучения своей модели генерации видео Sora. Брайант сказал, что Google принимает «технические и юридические меры» для предотвращения такого несанкционированного использования, «когда у нас есть четкие юридические или технические основания для этого».

По словам источников «Таймс», Google также собирала стенограммы с YouTube. Брайант сказал, что компания тренировала своих моделей «на некоторых материалах YouTube, в соответствии с нашими соглашениями с создателями YouTube».

The Times пишет, что юридический отдел Google попросил команду по защите персональных данных компании изменить формулировку политики, чтобы расширить возможности использования данных потребителей, например, офисных инструментов, таких как Google Docs. Сообщается, что новая политика была намеренно выпущена 1 июля, чтобы воспользоваться отвлекающим моментом, связанным с праздничными выходными по случаю Дня независимости.

Google, OpenAI и другие компании, занимающиеся обучением искусственного интеллекта, борются с быстро исчезающими данными для обучения своих моделей, которые становятся тем лучше, чем больше данных они поглощают. На этой неделе The Journal написал, что к 2028 году компании могут опередить по объему нового контента.

Возможные решения этой проблемы, упомянутые в понедельник в Journal, включают обучение моделей на «синтетических» данных, созданных их собственными моделями, или так называемое «куррикулярное обучение», которое предполагает подачу моделям высококачественных данных в упорядоченном виде в надежде, что они смогут создавать «более умные связи между понятиями», используя гораздо меньше информации, но ни один из этих подходов пока не доказан. Но у компаний есть и другой вариант — использовать все, что они могут найти, независимо от того, есть у них разрешение или нет, и, судя по многочисленным искам, поданным за последний год или около того, этот путь, скажем так, более чем небезопасен.

Сергей Кузнецов

Главный редактор itzine.ru и технический журналист с 15-летним стажем. Специализируется на глубоком тестировании аудиооборудования, фототехники и потребительской электроники. Автор более 5000 материалов, охватывающих широкий спектр тем: от обзоров игровых кресел и сетевого оборудования до аналитики рынка смартфонов и носимых гаджетов. На платформе курирует экспертные разделы и формирует редакционную политику издания.