No ano passado, a empresa de infraestrutura da Internet Cloudflare lançou uma ferramenta que permite que os clientes bloqueie os raspadores da IA. Hoje, a empresa está lutando para reduzir ainda mais os estágios não autorizados. Por padrão, ele mudou para bloquear os rastreadores de AI para os clientes, avançando com um programa de pagamento por crawl que permite que os clientes cobrem as empresas de IA para esfregar seus sites.
Os rastreadores da web estão trollando a Internet por informações há décadas. Sem eles, as pessoas perderão ferramentas on -line vitais, desde pesquisas do Google até as preciosas tarefas de preservação digital dos arquivos da Internet. No entanto, o boom da AI gera boomlets correspondentes com rastreadores da web focados na IA, e essas robôs páginas da web raspam com ataques DDoS, servidores de tensão e com que frequência eles podem bater em sites offline. Mesmo que um site possa lidar com atividades aprimoradas, muitas pessoas não querem que os rastreadores de IA eliminem o conteúdo, principalmente publicações de notícias que exigem que as empresas de IA paguem por seu trabalho. “Estamos tentando nos proteger”, diz Danielle Coffey, presidente e CEO da Aliança de Mídia do Negocial, representando milhares de lojas norte -americanas.
Até agora, o chefe de controle de IA, privacidade e mídia da Cloudflare disse à Will Allen que mais de um milhão de sites de clientes ativaram suas antigas ferramentas de bloqueio de AI-bot. Atualmente, milhões têm a opção de manter o bloqueio de bot como padrão. O Cloudflare também diz que pode identificar até os arranhões “sombras” que não foram publicados por empresas de IA. A empresa disse que usa uma combinação única de análise comportamental, impressão digital e aprendizado de máquina para classificar e separar os bots da IA de bots “bons”.
O padrão da Web amplamente utilizado, conhecido como Protocolo de Exclusão de Robôs, é frequentemente implementado através do arquivo robots.txt e ajuda os editores a bloquear os bots caso a caso, mas não é legalmente necessário segui-lo, e há muitas evidências de que algumas empresas de IA estão tentando evitar os esforços para bloquear os suportes. “Robots.txt é ignorado”, diz Coffey. A REI Restragem ainda está em ascensão, de acordo com um relatório da Tollbit, uma plataforma de licenciamento de conteúdo que oferece seu próprio mercado para os editores negociarem com as empresas de IA via acesso de bot. Tollbit descobriu que mais de 26 milhões de arranhões ignoraram o protocolo apenas em março de 2025.
Nesse contexto, a mudança do CloudFlare para o bloqueio por padrão pode ser um obstáculo crítico aos raspadores secretos, permitindo que os editores negociem mais alavancagem, como através de programas de pagamento por crawl. “Isso poderia mudar drasticamente a dinâmica de energia. Até esse momento, as empresas de IA não precisavam pagar por uma licença por conteúdo porque sabem que podem aceitar isso sem consequências”. “Agora eles precisam negociar, o que será uma vantagem competitiva para as empresas de IA que podem atingir melhores acordos com mais e melhores editores”.
De acordo com o CEO e fundador Bill Gross, a startup da AI Prorata, que administra o mecanismo de busca da IA Gist.Ai, concordou em participar de um programa de rastreamento por salário. “Acreditamos firmemente que, quando o conteúdo é usado nas respostas da IA, todos os criadores e editores de conteúdo devem ser compensados”, diz Gross.
Obviamente, ainda não está claro se os principais atores do espaço da IA participarão de programas como Cay por Crawl, que está na versão beta. (Cloudflare se recusou a nomear participantes atuais.) Empresas como o OpenAI fortaleceram transações de licenciamento com vários parceiros de publicação, incluindo a empresa controladora Wired Condé Nast, mas detalhes específicos desses acordos não foram divulgados, incluindo se o contrato cobre acesso a bot.
Enquanto isso, existe um ecossistema on -line inteiro de tutoriais sobre como contornar as ferramentas de bloqueio de bot da CloudFlare direcionadas a raspadores da Web. Depois que os padrões de bloqueio são implantados, esses esforços podem continuar. O Cloudflare enfatiza que os clientes que desejam evitar tocar o robô poderão desativar as configurações de bloqueio. “Todo o bloqueio é totalmente opcional e, a critério do usuário individual”, diz Allen.