Cloudflare, один из крупнейших в мире поставщиков
интернет-инфраструктуры, начал по умолчанию блокировать веб-сканеры на базе
искусственного интеллекта, если они не получат прямого разрешения от владельцев
сайтов.
Эта новая политика меняет давнюю практику, когда
разработчики ИИ могли свободно использовать Интернет для обучения больших
языковых моделей (LLM).
Блокировка по
умолчанию при сканировании ИИ
Ранее Cloudflare позволял владельцам веб-сайтов
отказаться от сканирования AI. Теперь блокировка происходит автоматически. Эта
отмена произошла после того, как более 1 миллиона клиентов решили ограничить
использование ботов AI в рамках прежней опциональной системы.
На данный момент поставщики ИИ должны явно запрашивать
разрешение на доступ к контенту, включая разъяснение того, являются ли их
намерения обучением, выводом или поиском.
«Эта долгожданная функция от Cloudflare — настоящая
катастрофа для многих поставщиков GenAI, которая может оказаться фатальной для
текущих бизнес-моделей GenAI», — сказал доктор Колоченко, генеральный директор
ImmuniWeb и член Британского компьютерного общества (BCS).
«Эта функция безопасности элегантно предотвратит
несанкционированный сбор контента, созданного человеком, жадными до данных
ботами без разрешения и без оплаты».
Новая экономическая
модель для веб-контента
Обновленная политика вводит программу «Оплата за
сканирование». Эта функция позволяет избранной группе издателей устанавливать
условия ценообразования для ИИ-скрейперов. Взамен ИИ-компании могут выбрать
оплату доступа к контенту или отказ во входе. Этот подход на основе разрешений
контрастирует с предыдущей моделью, где веб-скрейперство опиралось на слабо
соблюдаемые правила, такие как robots.txt.
Во время мероприятия Axios Live на прошлой неделе
генеральный директор Cloudflare Мэтью Принс подчеркнул более широкие
последствия.
«Если Интернет хочет пережить эпоху искусственного
интеллекта, нам нужно предоставить издателям контроль, которого они заслуживают,
и построить новую экономическую модель, которая будет работать для всех», —
пояснил Принс.
«В целом, большинство поставщиков GenAI вскоре
столкнутся с жесткой реальностью: платить справедливую цену за
высококачественные данные для обучения, сохраняя при этом прибыль. Ввиду
серьезной конкуренции со стороны Китая многие западные компании GenAI могут
просто выйти из бизнеса как экономически невыгодные», — добавил Колоченко.
Правовые серые зоны и
исключения для социальных сетей
Законность парсинга остается неясной. В мае 2025 года
ирландские и немецкие регуляторы отказались запретить Meta использовать данные
Facebook и Instagram для обучения своей модели Llama, несмотря на
противодействие со стороны групп по защите конфиденциальности и потребителей. Эти
события подчеркивают разрыв между быстро развивающимися технологиями и более
медленными системами регулирования.
«В некоторых юрисдикциях преднамеренный обход защиты от ботов и массовый
сбор данных может представлять собой уголовное преступление», — сказал
Колоченко, добавив, что нарушение договорных требований, а не авторских прав,
может представлять собой самую серьезную правовую угрозу для компаний GenAI.
Дополнительная
информация:
Coinbase
пострадала от утечки данных, подверглась вымогательству (но не заплатила)
"Почему
Kubernetes стал неотъемлемой частью современных IT-решений"
Samsung исправляет уязвимость
сервера MagicInfo 9, которой воспользовались злоумышленники
Фальшивые атаки: почему они опаснее,
чем кажутся
Как работают более 300 000 жёстких
дисков в реальных условиях
МЕТА ТЕГИ:
Cloudflare, блокировка ИИ, веб-сканирование, защита данных, большие языковые
модели, LLM, GenAI, экономическая модель, парсинг данных, регулирование ИИ,
защита контента, Мэтью Принс, доктор Колоченко, Meta, Facebook, Instagram,
Llama, защита ботов, авторские права.
Комментариев нет:
Отправить комментарий