Дефицит жестких дисков ударил по Internet Archive и Wikipedia

Хранить интернет стало заметно дороже, и это уже не абстрактная проблема для дата-центров, а вполне осязаемый удар по Internet Archive и Wikimedia Foundation. На фоне бума ИИ вырос спрос на NAND-память и жесткие диски большой емкости, а вместе с ним подскочили и цены. По данным 404 Media, некоторые HDD крупного объема подорожали втрое.
Самое неприятное здесь даже не ценник. Когда инфраструктура архивирования начинает конкурировать за те же компоненты, что и серверы для нейросетей, цифровая память превращается из скучной коммуналки в дефицитный ресурс. А это уже история не про удобство, а про то, сколько вообще стоит сохранить веб таким, каким он был вчера.
Как дефицит HDD бьет по Internet Archive
У Internet Archive масштабы давно не игрушечные. Организация держит около 210 петабайт данных и пополняет архив примерно на 100 терабайт каждый день. На бумаге это звучит как техно-фольклор для энтузиастов, но на практике означает постоянную закупку железа, которое теперь приходится вылавливать буквально по рынку.
Брюстер Кейл прямо говорит, что найти диски на 28—30 ТБ стало проблемой: их либо нет в продаже, либо они стоят намного дороже обычного. И это больнее всего бьет по проектам с длинным горизонтом хранения. Облако тут не спасает магией, потому что у больших архивов экономика все равно упирается в цену за терабайт и в то, что данные надо держать годами.
Что происходит с Wikimedia Foundation и бэкапами
У Wikimedia Foundation проблема шире одной полки с дисками. Там уже видят рост цен не только на накопители, но и на серверы целиком, а еще сложнее становится планировать будущие закупки. Для организации вроде Википедии это особенно неприятно: инфраструктура должна быть скучной, предсказуемой и дешевой. Сейчас она становится ни тем ни другим.
- Internet Archive хранит около 210 петабайт данных
- Архив пополняется примерно на 100 терабайт в день
- Диски на 28—30 ТБ стали дефицитом или резко подорожали
- Подорожали также серверы и сопутствующее оборудование
Есть еще один слой проблемы, менее заметный, но не менее мерзкий. Сайты все чаще режут ботов, потому что боятся автоматического сбора данных для обучения ИИ-моделей. Под раздачу попадают и обычные архивные роботы, без которых цифровая история быстро превращается в набор битых ссылок и чужих решений о том, что можно было сохранить.
Пока индустрия ИИ сжигает рынок памяти своим аппетитом к данным, проекты сохранения веба вынуждены платить за чужой рост дважды. Сначала за железо. Потом за доступ к самим сайтам.



