GEOAI SearchRobots.txtWAFChatGPTClaudePerplexity

Votre site bloque les crawlers IA — mais est-il vraiment invisible ?

Lucas Dominguez·14 mars 2026·16 min read

Vous venez de lancer un audit Pharone et le verdict tombe : votre site bloque les crawlers IA. GPTBot, ClaudeBot, PerplexityBot — tous reçoivent une erreur HTTP 403. L'écran affiche des badges rouges. Le mot "CRITIQUE" apparaît.

Avant de paniquer, respirez. La situation est plus subtile qu'elle n'en a l'air.

Chez Pharone, on pourrait se contenter de vous dire "c'est bloqué, corrigez tout". Mais ce serait vous mentir par omission. La vérité, c'est qu'il existe trois couches distinctes d'accès IA à votre site, et bloquer l'une ne signifie pas bloquer les trois. Comprendre cette distinction, c'est la différence entre une décision stratégique éclairée et une panique inutile.


Les trois couches d'accès IA à votre site web

Quand on parle de "bots IA", on mélange en réalité trois activités très différentes. Chaque grande plateforme IA (OpenAI, Anthropic, Perplexity) utilise désormais des bots séparés pour chaque fonction, avec des User-Agents distincts et des conséquences différentes quand on les bloque.

Couche 1 — Le crawl d'entraînement

C'est le bot qui aspire massivement du contenu web pour entraîner les modèles de langage. Son objectif : nourrir les données sur lesquelles le modèle apprend.

Les bots concernés :

  • GPTBot (OpenAI) — collecte du contenu pour l'entraînement des modèles GPT
  • ClaudeBot (Anthropic) — collecte du contenu pour l'entraînement des modèles Claude
  • anthropic-ai (Anthropic, ancien User-Agent, déprécié)
  • Google-Extended (Google) — contrôle l'utilisation pour l'entraînement de Gemini
  • meta-externalagent (Meta) — collecte pour l'entraînement des modèles Meta AI

Ce que ça implique quand vous les bloquez : votre contenu futur ne sera pas intégré dans les prochaines versions de ces modèles. Le modèle ne "connaîtra" pas votre site de mémoire. Mais attention : tout contenu déjà ingéré avant le blocage reste dans le modèle. Bloquer GPTBot aujourd'hui n'efface pas ce que GPT-4 a déjà appris de votre site.

Faut-il s'en inquiéter ? Ça dépend de votre stratégie. Si votre site vend des produits ou des services, être "connu" des modèles IA peut générer des mentions spontanées quand un utilisateur pose une question générale. Mais ça reste indirect et non garanti.

Couche 2 — L'indexation pour la recherche IA

C'est le bot qui construit un index propriétaire, spécifique à chaque plateforme, pour alimenter les résultats de recherche IA. C'est l'équivalent de Googlebot, mais pour ChatGPT Search, Claude Search, ou Perplexity.

Les bots concernés :

  • OAI-SearchBot (OpenAI) — indexe le web pour les résultats de ChatGPT Search
  • Claude-SearchBot (Anthropic) — indexe le contenu pour améliorer la qualité des résultats de recherche dans Claude
  • PerplexityBot (Perplexity) — indexe le web pour le moteur de recherche Perplexity

Ce que ça implique quand vous les bloquez : vos pages ne seront pas dans l'index propriétaire de ces plateformes. Concrètement, quand ChatGPT Search affiche des résultats, votre site n'apparaîtra pas dans sa sélection "native". Quand Claude cherche dans son propre index, vous en serez absent. Anthropic est explicite sur ce point : bloquer Claude-SearchBot "empêche notre système d'indexer votre contenu pour l'optimisation de la recherche, ce qui peut réduire la visibilité et la précision de votre site dans les résultats de recherche des utilisateurs".

Faut-il s'en inquiéter ? C'est ici que l'enjeu devient sérieux pour le SEO. Plus les utilisateurs passent par ces plateformes pour chercher de l'information, plus l'absence de votre index IA vous coûte en visibilité. Adobe a documenté une multiplication par dix du trafic référent depuis les plateformes IA entre juillet 2024 et février 2025 aux États-Unis. Les referrals depuis ChatGPT ont augmenté de 52 % en glissement annuel entre septembre et novembre 2025, et ceux depuis Gemini de 388 % sur la même période.

Couche 3 — Le fetch en temps réel (recherche live)

C'est le mécanisme qui se déclenche quand un utilisateur pose une question à l'IA et que celle-ci va chercher la réponse en direct sur le web. Ce n'est pas du crawl automatisé — c'est une requête ponctuelle, déclenchée par un humain, pour répondre à sa question spécifique.

Les bots concernés :

  • ChatGPT-User (OpenAI) — fetch en temps réel quand un utilisateur de ChatGPT pose une question
  • Claude-User (Anthropic) — fetch en temps réel quand un utilisateur de Claude lance une recherche web
  • Perplexity-User (Perplexity) — fetch en temps réel quand un utilisateur de Perplexity pose une question

Ce que ça implique quand vous les bloquez : l'IA ne pourra pas aller lire votre page en direct pour répondre à une question d'utilisateur. Même si votre contenu est excellent et pertinent, l'IA ne pourra pas le citer ni le résumer.

Le point crucial : ces bots "User" passent souvent par l'infrastructure de recherche web classique (les résultats de Google, Bing, etc.) pour trouver les pages pertinentes, puis les fetchent avec leur propre User-Agent. Si votre WAF ou votre CDN bloque le User-Agent mais pas l'accès web standard, le fetch peut quand même fonctionner dans certains cas. C'est exactement ce que nous avons observé en test.


La preuve en direct : ce que Claude peut réellement lire

Pour écrire cet article, nous n'avons pas simplement compilé de la documentation technique. Nous avons fait le test.

Nous avons pris un site client audité par Pharone — maslow.immo — dont l'audit indiquait un blocage des crawlers IA (GPTBot, ClaudeBot, PerplexityBot) avec des erreurs HTTP 403. Le rapport était clair : "votre site est invisible aux IA".

Nous avons ensuite demandé à Claude (le modèle d'Anthropic) de faire une recherche web sur "maslow.immo immobilier" et de fetcher le contenu de la page d'accueil.

Résultat : Claude a pu à la fois trouver maslow.immo dans les résultats de recherche ET accéder au contenu de la page en temps réel. Le site a répondu avec un code HTTP 200 et le contenu complet de la page.

Autrement dit : le site bloque bien ClaudeBot (le crawler d'entraînement), mais Claude-User ou le mécanisme de fetch en temps réel passe sans problème. Le site n'est pas invisible aux IA — il est invisible aux crawlers d'entraînement, ce qui est une chose très différente.

Ce test illustre pourquoi un audit qui dit simplement "BLOQUÉ" est techniquement incomplet.


Le tableau complet : qui fait quoi chez chaque plateforme

Pour y voir clair, voici la cartographie complète des bots par plateforme et par fonction. C'est cette grille que Pharone utilise en interne pour évaluer votre visibilité réelle.

OpenAI (ChatGPT)

BotFonctionImpact du blocage
GPTBotEntraînement des modèlesVotre contenu futur ne nourrit plus les modèles GPT
OAI-SearchBotIndexation pour ChatGPT SearchVotre site n'apparaît plus dans les résultats natifs de ChatGPT Search
ChatGPT-UserFetch temps réel (question utilisateur)ChatGPT ne peut plus lire vos pages quand un utilisateur pose une question

OpenAI est explicite : chaque bot fonctionne indépendamment. Vous pouvez bloquer GPTBot (pas d'entraînement) tout en autorisant OAI-SearchBot (rester dans les résultats de recherche) et ChatGPT-User (rester accessible en fetch live). C'est la configuration que nous recommandons pour la plupart des sites.

Anthropic (Claude)

BotFonctionImpact du blocage
ClaudeBotEntraînement des modèlesVotre contenu futur ne nourrit plus les modèles Claude
Claude-SearchBotIndexation pour la recherche ClaudeRéduit votre visibilité dans les résultats de recherche Claude
Claude-UserFetch temps réel (question utilisateur)Claude ne peut plus récupérer votre contenu quand un utilisateur le demande

Anthropic a formalisé cette séparation en trois bots en février 2026, avec une documentation mise à jour qui détaille les conséquences de chaque blocage. Avant ça, seul ClaudeBot existait dans la documentation officielle.

Perplexity

BotFonctionImpact du blocage
PerplexityBotIndexation pour le moteur PerplexityVotre site n'est plus indexé dans Perplexity
Perplexity-UserFetch temps réel (question utilisateur)Perplexity ne peut plus accéder à vos pages en direct

Perplexity a fait l'objet de controverses concernant le respect des directives robots.txt. Leur documentation indique que Perplexity-User peut ne pas respecter les règles robots.txt quand un utilisateur fournit une URL spécifique comme contexte. C'est un point à surveiller.

Google (Gemini)

BotFonctionImpact du blocage
GooglebotIndexation Google SearchDisparition de Google Search (ne faites jamais ça)
Google-ExtendedEntraînement GeminiVotre contenu ne nourrit plus Gemini, mais reste dans Google Search

Google a été le premier à introduire cette séparation avec Google-Extended, permettant d'opt-out de l'entraînement Gemini sans quitter Google Search.


L'agressivité réelle des crawlers IA : les chiffres qui mettent en perspective

Pour comprendre pourquoi cette distinction entre bots a un impact concret, il faut regarder comment ils se comportent en conditions réelles. Une expérience menée en mars 2026 par le chercheur Metehan Yesilyurt apporte des données saisissantes.

Yesilyurt a créé un site de 60 000 pages et l'a déployé sur un domaine neuf, sans backlinks, sans soumission à Google Search Console, sans aucune promotion. En quelques minutes seulement, GPTBot a commencé à crawler le site de façon intensive : plus de 29 000 requêtes en 12 heures, soit environ une requête par seconde.

Le contraste avec les autres bots est frappant. Sur une fenêtre de 3 heures mesurée avec un tracking server-side vérifié par IP :

  • GPTBot (entraînement OpenAI) : 5 200+ requêtes
  • GoogleOther : 140+ requêtes
  • OAI-SearchBot (indexation ChatGPT Search) : 94 requêtes
  • Googlebot : 11 requêtes
  • PerplexityBot : 2 requêtes
  • ChatGPT-User (fetch live) : 1 requête

GPTBot a crawlé avec une intensité 470 fois supérieure à Googlebot sur la même période. Et OAI-SearchBot — le bot d'indexation pour ChatGPT Search — n'a fait que 94 requêtes. Quant à ChatGPT-User (le fetch temps réel déclenché par un utilisateur), il n'a été vu qu'une seule fois.

Ce que ça signifie pour votre site

Cette expérience illustre parfaitement pourquoi bloquer "les bots IA" en bloc est une erreur de raisonnement. Le bot qui consomme le plus de bande passante et aspire le plus de contenu, c'est GPTBot — le crawler d'entraînement. C'est lui qui est "agressif". Les bots de recherche (OAI-SearchBot) et de fetch live (ChatGPT-User) sont, en comparaison, extrêmement discrets.

Bloquer GPTBot pour protéger votre contenu de l'entraînement ? C'est un choix rationnel. Mais bloquer en même temps OAI-SearchBot et ChatGPT-User — qui ne génèrent quasiment aucune charge serveur — revient à vous couper d'un canal de visibilité sans bénéfice technique. C'est comme refuser d'être indexé par Google pour éviter que quelqu'un ne copie-colle vos pages.


Robots.txt vs WAF : deux niveaux de blocage, deux problèmes différents

Il y a un piège courant que votre audit Pharone met en évidence : la différence entre le blocage au niveau robots.txt et le blocage au niveau serveur (WAF/CDN).

Le blocage robots.txt

Le fichier robots.txt est une convention. C'est une demande polie adressée aux bots : "merci de ne pas crawler telle section". Les bots sérieux (ceux d'OpenAI, Anthropic, Google) respectent ces directives. Mais robots.txt n'empêche physiquement rien — c'est un code d'honneur, pas un mur.

Pour bloquer chaque bot individuellement via robots.txt :

# Bloquer l'entraînement, autoriser la recherche et le fetch live
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

Le blocage WAF / CDN (Cloudflare, Sucuri, etc.)

C'est un vrai mur. Quand votre WAF bloque un User-Agent, il renvoie une erreur 403 — le bot n'accède à rien, pas même au robots.txt. C'est ce type de blocage que Pharone détecte le plus souvent.

Le problème : beaucoup de plugins de sécurité WordPress ou de configurations Cloudflare bloquent tous les bots IA sans distinction. Ils utilisent des listes qui incluent GPTBot, ClaudeBot, PerplexityBot... mais aussi parfois ChatGPT-User et Claude-User. Résultat : vous bloquez non seulement l'entraînement, mais aussi la recherche et le fetch live. C'est souvent involontaire.

Ce que Pharone détecte

Quand Pharone teste votre site, il envoie des requêtes avec les User-Agents des principaux bots IA et analyse la réponse HTTP. Si le serveur renvoie un 403, c'est un blocage au niveau serveur (WAF/CDN), pas au niveau robots.txt. C'est une information importante : le blocage serveur est plus radical que le blocage robots.txt, mais il peut aussi être plus facile à corriger de manière sélective en créant des règles d'autorisation ciblées dans votre WAF.


Les quatre scénarios types et leurs conséquences

Scénario 1 — Le blocage total (la situation la plus fréquente)

Votre WAF bloque tous les User-Agents contenant "bot", "crawl", "GPT", "Claude", "Perplexity".

Conséquence : votre site est effectivement inaccessible aux crawlers d'entraînement, aux bots d'indexation IA, ET aux bots de fetch en temps réel. Vous êtes absent des résultats natifs de ChatGPT Search, de Claude, de Perplexity. Seul le trafic de recherche classique (Google, Bing) continue de fonctionner.

À noter : même dans ce scénario, votre site peut encore apparaître dans les résultats quand l'IA fait une recherche web via Google/Bing puis utilise un mécanisme de fetch qui ne s'identifie pas avec un User-Agent IA. C'est exactement ce que nous avons démontré avec le test maslow.immo.

Scénario 2 — Le blocage sélectif (la stratégie recommandée)

Vous bloquez les bots d'entraînement (GPTBot, ClaudeBot) mais autorisez les bots de recherche (OAI-SearchBot, Claude-SearchBot) et les bots de fetch live (ChatGPT-User, Claude-User, Perplexity-User).

Conséquence : votre contenu ne nourrit pas les modèles IA, mais votre site reste visible dans les résultats de recherche IA et accessible en temps réel quand un utilisateur pose une question. C'est le meilleur compromis pour la majorité des sites.

Scénario 3 — Tout ouvert

Vous ne bloquez rien.

Conséquence : visibilité maximale dans tous les canaux IA, mais votre contenu contribue à l'entraînement des modèles. C'est le choix que font les sites qui veulent maximiser leur présence dans l'écosystème IA, notamment les entreprises dont la visibilité prime sur la protection du contenu.

Scénario 4 — Robots.txt restrictif, mais pas de blocage WAF

Votre robots.txt interdit les crawlers IA, mais votre serveur ne bloque pas physiquement les requêtes.

Conséquence : les bots sérieux respectent le robots.txt et ne crawlent pas. Mais les bots moins scrupuleux peuvent quand même accéder à votre contenu en utilisant des User-Agents de navigateur classique. Ce scénario offre une protection "de bonne foi" mais pas une garantie absolue.


Comment corriger : la marche à suivre par plateforme

Sur Cloudflare

Si vous utilisez Cloudflare, la correction passe par les règles WAF (Security → WAF → Custom Rules). L'idée est de créer des règles d'autorisation spécifiques pour les bots que vous voulez laisser passer.

Exemple de logique :

  • Règle 1 (Allow) : si le User-Agent contient "ChatGPT-User" OU "OAI-SearchBot" OU "Claude-User" OU "Claude-SearchBot" OU "Perplexity-User" → autoriser
  • Règle 2 (Block) : si le User-Agent contient "GPTBot" OU "ClaudeBot" → bloquer

L'ordre compte : les règles d'autorisation doivent être évaluées avant les règles de blocage.

Sur un plugin WordPress (Wordfence, Sucuri, etc.)

Vérifiez si votre plugin de sécurité a une option "bloquer les bots IA" ou une liste de User-Agents bloqués. Si c'est le cas, retirez les User-Agents de fetch live (ChatGPT-User, Claude-User, Perplexity-User) et les User-Agents de recherche (OAI-SearchBot, Claude-SearchBot) de la liste de blocage.

Dans votre robots.txt

Ajoutez des directives explicites pour chaque bot. Ne vous contentez pas d'un User-agent: * qui s'applique à tout le monde :

# Entraînement IA — bloqué
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# Recherche IA et fetch live — autorisé
User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

Ce que Pharone va améliorer dans ses audits

Nous écrivons cet article par souci de transparence. Un audit qui dit simplement "BLOQUÉ" sans expliquer les nuances ne rend pas service. Voici comment nous affinons notre approche :

  1. Un scoring sur trois axes — accessibilité entraînement, accessibilité indexation IA, accessibilité fetch live. Au lieu d'un verdict binaire, vous saurez exactement où vous en êtes sur chaque couche.

  2. Des recommandations contextualisées — bloquer l'entraînement n'est pas la même décision que bloquer la recherche. Nos recommandations tiendront compte de votre stratégie : un média qui monétise son contenu n'a pas les mêmes enjeux qu'un e-commerce qui veut être cité dans les réponses IA.

  3. Un test de fetch réel — au-delà de la vérification du User-Agent, nous testons ce qu'une IA peut réellement lire sur votre site quand elle fait une recherche en temps réel. Parce que c'est ça qui compte pour l'utilisateur final.


En résumé : les questions à se poser

Plutôt que de réagir au mot "BLOQUÉ", posez-vous ces questions :

Est-ce que je veux que mon contenu entraîne les modèles IA ? Si non, bloquez GPTBot et ClaudeBot. C'est un choix légitime qui ne vous rend pas invisible.

Est-ce que je veux apparaître dans les résultats de recherche IA (ChatGPT Search, Claude, Perplexity) ? Si oui, autorisez OAI-SearchBot, Claude-SearchBot et PerplexityBot. C'est l'équivalent d'autoriser Googlebot pour Google Search.

Est-ce que je veux être accessible quand un utilisateur d'IA pose une question en temps réel ? Si oui, autorisez ChatGPT-User, Claude-User et Perplexity-User. C'est la couche la plus proche de l'expérience utilisateur finale.

La réponse "je bloque tout" est rarement la bonne. La réponse "j'ouvre tout" ne l'est pas non plus. La bonne réponse, c'est une stratégie sélective, alignée avec vos objectifs business.


Sources et documentation officielle


Cet article est maintenu à jour par l'équipe Pharone. Les plateformes IA font évoluer leurs bots et leurs politiques régulièrement — nous mettons à jour cette page en conséquence.

Vous avez lancé un audit Pharone et vous avez des questions sur vos résultats ? Cet article est là pour ça.

Lucas Dominguez — SEO & fondateur de Pharone
Lucas DominguezÀ propos →

Consultant SEO technique, 15 ans d'expérience (Vanksen, Peugeot, MACIF). Fondateur de Pharone.ia.