
Хранить интернет стало заметно дороже, и это уже не абстрактная проблема для дата-центров, а вполне осязаемый удар по Internet Archive и Wikimedia Foundation. На фоне бума ИИ вырос спрос на NAND-память и жесткие диски большой емкости, а вместе с ним подскочили и цены. По данным 404 Media, некоторые HDD крупного объема подорожали втрое.
Самое неприятное здесь даже не ценник. Когда инфраструктура архивирования начинает конкурировать за те же компоненты, что и серверы для нейросетей, цифровая память превращается из скучной коммуналки в дефицитный ресурс. А это уже история не про удобство, а про то, сколько вообще стоит сохранить веб таким, каким он был вчера.
У Internet Archive масштабы давно не игрушечные. Организация держит около 210 петабайт данных и пополняет архив примерно на 100 терабайт каждый день. На бумаге это звучит как техно-фольклор для энтузиастов, но на практике означает постоянную закупку железа, которое теперь приходится вылавливать буквально по рынку.
Брюстер Кейл прямо говорит, что найти диски на 28—30 ТБ стало проблемой: их либо нет в продаже, либо они стоят намного дороже обычного. И это больнее всего бьет по проектам с длинным горизонтом хранения. Облако тут не спасает магией, потому что у больших архивов экономика все равно упирается в цену за терабайт и в то, что данные надо держать годами.
У Wikimedia Foundation проблема шире одной полки с дисками. Там уже видят рост цен не только на накопители, но и на серверы целиком, а еще сложнее становится планировать будущие закупки. Для организации вроде Википедии это особенно неприятно: инфраструктура должна быть скучной, предсказуемой и дешевой. Сейчас она становится ни тем ни другим.
Есть еще один слой проблемы, менее заметный, но не менее мерзкий. Сайты все чаще режут ботов, потому что боятся автоматического сбора данных для обучения ИИ-моделей. Под раздачу попадают и обычные архивные роботы, без которых цифровая история быстро превращается в набор битых ссылок и чужих решений о том, что можно было сохранить.
Пока индустрия ИИ сжигает рынок памяти своим аппетитом к данным, проекты сохранения веба вынуждены платить за чужой рост дважды. Сначала за железо. Потом за доступ к самим сайтам.