llms.txt é coisa do passado? ANS e robots.txt mostram o que realmente importa na web das IAs

Home Hedgehog Blog llms.txt é coisa do passado? ANS e robots.txt mostram o que realmente importa na web das IAs

Enquanto o mercado discutia llms.txt, os principais players seguiram operando sobre uma infraestrutura já consolidada, baseada em padrões como robots.txt, autenticação e mecanismos de controle de identidade que já estruturam a web atual.

Quando o llms.txt surgiu, muita gente falou dele como se fosse o “novo robots.txt” da era da IA. Afinal, a promessa era sedutora: entregar aos LLMs uma versão mais limpa, priorizada e escaneável do site.

A teoria faz muito sentido, é verdade, especialmente quando pensamos em sites complexos e documentações.

Na prática, porém, o que vimos foi uma realidade bem diferente, em que o peso do llms.txt ficou bem abaixo do que muitos imaginavam.

Isso não é um atestado de fracasso. Afinal, este arquivo foi apenas uma proposta. O ponto é que uma parcela do mercado achou que fosse evoluir para algo além disso e até roubar o posto de outro participante validado, o robots.txt.

No final das contas, o que vimos foi uma adoção aquém do que alguns esperavam e uma relevância que parece ser menor até a do ANS (Agent Name Service), outra iniciativa também recente, mas que conversa bem melhor com a nova era da web.

O que o llms.txt prometia e por que tanta gente comprou a ideia?

O papel original do llms.txt era ser um arquivo em Markdown, normalmente em /llms.txt nos domínios, pensado para dar aos LLMs uma visão resumida e organizada dos principais conteúdos do site.

A ideia era reduzir o ruído que existe em meio a tanto HTML, menus, scripts e boilerplate, entregando o que mais importa rapidamente aos LLMs.

Se você quer saber mais, eu escrevi um artigo sobre o que é llms.txt, onde explico com maior riqueza de detalhes, inclusive com as fontes oficiais.

Inclusive, abrindo um pouco dos bastidores, este artigo que você está lendo agora foi idealizado antes do que explica a definição de llms.txt. Mas achei importante explicar o que significa e qual era a proposta para, depois, trazer o meu ponto de vista sobre tudo isso.

A ideia foi comprada porque realmente era interessante, mas a abrangência do llms.txt acabou sendo bem menor do que alguns imaginavam.

O mercado percebeu que uma proposta não é a mesma coisa que adoção

Muitos grandes players não formalizaram o uso do llms.txt como parte de seus protocolos de crawler, o que inclusive é normal se lembrarmos que não é um padrão.

A Ahrefs, neste conteúdo, aponta informações importantes que contrariam esse senso:

A OpenAI honra o robots.txt;
A Anthropic publica o próprio llms.txt, mas não declara que seus crawlers usam o padrão;
O Google fala em Google-Extended e robots.txt, sem suporte oficial a llms.txt.

Esta não foi uma percepção apenas da Ahrefs. O Webflow também apontou que, até outubro de 2025, os grandes provedores não usavam llms.txt em seus dados de treinamento.

Mesmo com vários sinais, não para por aí. A SE Ranking fez um levantamento animal, com cerca de 300.000 domínios, encontrando a adoção do llms.txt apenas em 10,13% dos sites, sem nenhuma relação clara com citações em IA.

O Search Engine Land fez algo parecido: acompanhou 10 sites e concluiu que os poucos crescimentos observados não vieram do arquivo llms.txt, mas sim de melhorias de conteúdo, estrutura e extração de conteúdo.

O llms.txt até pode continuar como experimento útil ou complemento, mas hoje não há base para tratá-lo como um alicerce estratégico quando pensamos sobre como ser citado pelas IAs.

llms.txt não é um pilar, mas o robots.txt (ainda) é

O bom e velho robots.txt continua sendo basilar em estratégias de SEO e desempenha um papel muito importante nas otimizações para IA. Afinal, ele é o instrumento real de operação entre sites e crawlers.

A OpenAI documenta explicitamente que usa OAI-SearchBot e GPTBot com controles independentes via robots.txt.

Além disso, a OpenAI ainda orienta publishers e desenvolvedores a garantirem que não estão bloqueando o OAI-SearchBot se quiserem aparecer no ChatGPT Search.

Do lado do Google, a documentação é ainda mais útil para este argumento: não há requisitos extras para aparecer em AI Overviews ou AI Mode. Isso fica claro nas documentações oficiais sobre recursos de IA e seu site.

Ele diz que as mesmas boas práticas de SEO continuam válidas e que, para controle, a lógica segue passando por Googlebot, nosnippet, noindex e Google-Extended.

Como se não bastasse, a Cloudflare ainda reforça tudo isso: no recorte deles, 78% dos sites têm robots.txt, enquanto apenas 4% declaravam preferências de uso por IA nele.

O que isso mostra? Que a infraestrutura-base já existe. O que muda agora é o tipo de regra que começa a ser colocada ali.

Se o llms.txt promete orientar, o robots.txt já decide acesso, rastreamento e, em vários casos, uso também.

A próxima discussão não é só acesso, é identidade. E é aí que entra o ANS.

Quando olhamos para os próximos passos da internet, chegamos à Agentic Web. Uma realidade em que bots navegam, acessam, compram e interagem entre si.

O problema da Web Agentic não é apenas saber se um bot pode entrar, mas quem está fazendo essa requisição. User-agent e IP sozinhos já não bastam, pois a discussão sai do acesso e vai para a identidade auditável.

É aí que entra o ANS (Agent Name Service), especificamente em sua v2, que para essas situações importa muito mais do que um arquivo declarativo. O ANS é uma camada de identidade ancorada em domínio para agentes autônomos.

O modelo prevê validação de domínio via ACME, emissão de dois certificados e registro de eventos em transparency log. Sua documentação oficial, inclusive, o descreve como uma resposta ao problema de confiança entre agentes que operam entre organizações.

Este é um trabalho em progresso, não um padrão consolidado (ainda), mas que se propõe a atuar em uma camada mais estrutural: confiança, verificação e identidade.

Surgiu até uma parceria entre a Cloudflare e a GoDaddy para ajudar a permitir uma Agentic Web aberta, explicitando o ANS como um mecanismo de naming, verificação e descoberta para agentes de IA.

É importante ressaltar que o ANS não substitui o robots.txt, mas sim o complementa. Ambos operam em camadas diferentes e idealmente devem ser usados juntos.

Minha leitura: llms.txt não morreu, mas saiu do centro da conversa

Meu ponto de vista aqui não é decretar a morte oficial do llms.txt, longe disso. Ele pode continuar útil em contextos específicos, como documentação, governança de conteúdo e experiências futuras. Mas não é um pilar fundamental da otimização para LLMs.

O mercado já entendeu que esta não é a peça central. Hoje a conversa séria está em infraestrutura que os players já leem, respeitam e operam: robots.txt, controles de indexação, autenticação e identidade.

Na web das IAs, não ganha quem tem um.txt a mais, mas sim quem controla acesso e consegue provar identidade. E se isso hoje ainda é relativamente embrionário, deve crescer em relevância e representatividade a cada dia que passa.

Acompanhe a Hedgehog, a agência de SEO que não só atende com excelência, mas também informa e se posiciona. Afinal, contra dados, não há argumentos (e se tem algo que nós gostamos por aqui é de dados, verdade e credibilidade).

Compartilhe esta postagem

Assine nossa newsletter hoje!

Sobre o Autor...

Felipe Bazon

Felipe Bazon é CSO da Hedgehog Digital e um dos profissionais de SEO mais renomados do país com reconhecimento internacional. Em 2015 e 2020 foi eleito profissional do ano de SEO no Brasil. Além da vasta experiência operacional, é também orador regular em eventos como E-show, OME Expo, Des-Madrid, Digitalks, RD Summit e Brighton SEO.