Дефицит жестких дисков ударил по Internet Archive и Wikipedia

Изображение сгенерировано Nano Banana

Хранить интернет стало заметно дороже, и это уже не абстрактная проблема для дата-центров, а вполне осязаемый удар по Internet Archive и Wikimedia Foundation. На фоне бума ИИ вырос спрос на NAND-память и жесткие диски большой емкости, а вместе с ним подскочили и цены. По данным 404 Media, некоторые HDD крупного объема подорожали втрое.

Самое неприятное здесь даже не ценник. Когда инфраструктура архивирования начинает конкурировать за те же компоненты, что и серверы для нейросетей, цифровая память превращается из скучной коммуналки в дефицитный ресурс. А это уже история не про удобство, а про то, сколько вообще стоит сохранить веб таким, каким он был вчера.

Как дефицит HDD бьет по Internet Archive

У Internet Archive масштабы давно не игрушечные. Организация держит около 210 петабайт данных и пополняет архив примерно на 100 терабайт каждый день. На бумаге это звучит как техно-фольклор для энтузиастов, но на практике означает постоянную закупку железа, которое теперь приходится вылавливать буквально по рынку.

Брюстер Кейл прямо говорит, что найти диски на 28—30 ТБ стало проблемой: их либо нет в продаже, либо они стоят намного дороже обычного. И это больнее всего бьет по проектам с длинным горизонтом хранения. Облако тут не спасает магией, потому что у больших архивов экономика все равно упирается в цену за терабайт и в то, что данные надо держать годами.

Что происходит с Wikimedia Foundation и бэкапами

У Wikimedia Foundation проблема шире одной полки с дисками. Там уже видят рост цен не только на накопители, но и на серверы целиком, а еще сложнее становится планировать будущие закупки. Для организации вроде Википедии это особенно неприятно: инфраструктура должна быть скучной, предсказуемой и дешевой. Сейчас она становится ни тем ни другим.

Internet Archive хранит около 210 петабайт данных
Архив пополняется примерно на 100 терабайт в день
Диски на 28—30 ТБ стали дефицитом или резко подорожали
Подорожали также серверы и сопутствующее оборудование

Есть еще один слой проблемы, менее заметный, но не менее мерзкий. Сайты все чаще режут ботов, потому что боятся автоматического сбора данных для обучения ИИ-моделей. Под раздачу попадают и обычные архивные роботы, без которых цифровая история быстро превращается в набор битых ссылок и чужих решений о том, что можно было сохранить.

Пока индустрия ИИ сжигает рынок памяти своим аппетитом к данным, проекты сохранения веба вынуждены платить за чужой рост дважды. Сначала за железо. Потом за доступ к самим сайтам.

Источник: Ixbt

Сергей Кузнецов

Главный редактор itzine.ru и технический журналист с 15-летним стажем. Специализируется на глубоком тестировании аудиооборудования, фототехники и потребительской электроники. Автор более 5000 материалов, охватывающих широкий спектр тем: от обзоров игровых кресел и сетевого оборудования до аналитики рынка смартфонов и носимых гаджетов. На платформе курирует экспертные разделы и формирует редакционную политику издания.