Quinze ans d'audits. Des PME, des grands comptes, des sites e-commerce, des médias. Peugeot, la MACIF, des groupes immobiliers, des centaines de clients intermédiaires. Et dans 90% des cas, les mêmes erreurs reviennent.

Ce n'est pas une liste générée par un outil. Ce sont les problèmes que j'ai vus détruire des budgets SEO, bloquer des migrations, et empêcher des sites parfaitement écrits de ranker. Dans l'ordre de fréquence et d'impact.

1. Pas de balises canonical — ou des canonicals qui pointent vers rien

C'est l'erreur numéro un, de loin la plus commune, et probablement la plus destructrice.

Sans canonical, Google doit deviner quelle URL est la "vraie" version de votre page. Il se retrouve face à :

https://exemple.com/page/
https://exemple.com/page
http://exemple.com/page/
https://www.exemple.com/page/

Quatre URLs. Quatre versions potentiellement indexées. Toute l'autorité de vos backlinks diluée en quatre.

Ce que je vois souvent : des canonicals qui pointent vers une URL 404. C'est pire que pas de canonical — vous dites explicitement à Google que votre page est une copie d'une page qui n'existe pas.

Correction : Chaque page doit avoir une <link rel="canonical"> qui pointe vers elle-même (self-referencing canonical) ou vers sa version canonique. Sur WordPress, Yoast et Rank Math le gèrent. Sur un site custom, c'est 3 lignes de code.

2. Un robots.txt qui bloque sans le savoir

J'ai vu des sites perdre 80% de leur trafic après une refonte parce que quelqu'un avait laissé Disallow: / dans robots.txt pour éviter l'indexation pendant le développement. Trois semaines après la mise en production, le Disallow était toujours là.

Les erreurs classiques :

# ❌ Désindexe tout le site
User-agent: *
Disallow: /

# ❌ Bloque le CSS et JS — Google ne peut pas rendre vos pages
User-agent: *
Disallow: /assets/
Disallow: /wp-content/themes/

# ❌ Bloque les crawlers IA sans le réaliser
User-agent: GPTBot
Disallow: /

Ce dernier point est devenu critique en 2026. Beaucoup de sites ont ajouté un bloc GPTBot pendant la controverse sur l'entraînement des LLMs. Résultat : ils n'apparaissent plus dans ChatGPT ni dans les AI Overviews de Google.

Correction : Vérifiez votre robots.txt en production maintenant. Et avant la prochaine mise en production, ajoutez un check robots.txt dans votre checklist de déploiement.

3. Aucun schema.org — ou un schema incomplet

Les données structurées ne sont plus optionnelles. Elles servent à deux choses : les rich results Google (étoiles, FAQ, breadcrumbs) et les citations dans les moteurs IA.

Les LLMs extraient préférentiellement les informations structurées pour répondre aux questions. Un site sans schema est moins citable qu'un site avec un schema complet, même si le contenu est identique.

Ce que je vois souvent : un schema Organization vide, sans sameAs, sans founder, sans description. Ou un schema Product sans offers. Un schema invalide est parfois pire qu'un schema absent — Google peut pénaliser les données structurées incorrectes.

Correction : Commencez par le minimum vital pour votre type de site. Pour un site d'entreprise : Organization + WebSite. Pour un blog : Article avec author pointant vers une Person. Pour un e-commerce : Product + Offer + Review.

4. Des pages orphelines à n'en plus finir

Une page orpheline, c'est une page sans aucun lien entrant interne. Googlebot ne peut pas la trouver par le crawl — il dépend du sitemap. Et même si elle est indexée, elle ne reçoit aucun PageRank interne.

J'ai audité des sites e-commerce où 40% des fiches produits étaient orphelines. Elles n'avaient aucune chance de ranker, quelle que soit leur qualité.

Les causes habituelles :

Des pages créées directement dans le CMS sans être ajoutées au menu
Des anciennes pages de campagne jamais reliées au reste du site
Des pages de catégories que personne ne link depuis le contenu

Correction : Un audit de liens internes révèle les orphelines en quelques secondes. Pour chaque page orpheline, identifiez 2-3 pages existantes depuis lesquelles un lien contextuel aurait du sens, et ajoutez-le.

5. Un LCP au-dessus de 4 secondes

Le LCP (Largest Contentful Paint) mesure le temps d'affichage de l'élément principal visible de votre page. C'est un facteur de ranking Google depuis 2021, et il reste sous-estimé.

Un LCP > 4s, c'est environ 10-15% de perte de trafic organique selon mes observations sur des clients dans des secteurs compétitifs. Google préfère les pages rapides. C'est documenté, c'est mesuré, et pourtant la majorité des sites que j'audite sont dans la zone orange ou rouge.

Les coupables dans 80% des cas :

L'image hero non optimisée (format JPEG au lieu de WebP, pas de loading="eager", pas de srcset)
Un Time to First Byte (TTFB) trop long (hébergement sous-dimensionné, pas de cache)
Des ressources CSS/JS qui bloquent le rendu

Correction rapide : Convertissez votre image hero en WebP, ajoutez loading="eager" et fetchpriority="high", et activez la compression gzip sur votre serveur. Ces trois actions seules font souvent passer un LCP de 4s à 2s.

6. Des titres dupliqués sur tout le site

Deux pages avec le même <title> envoient un signal ambigu à Google : laquelle est la référence ? Lequel indexer en priorité ?

Les cas les plus fréquents :

Toutes les pages de pagination avec le même titre (Blog — Page 1, Blog — Page 2 mais même titre)
Des fiches produits générées avec le nom du produit sans la variante (taille, couleur)
La homepage et la page "Accueil" qui coexistent avec le même titre

Un cas réel : j'ai audité un site de 400 pages qui avait 180 titres dupliqués. La moitié de leur catalogue e-commerce était en compétition interne pour les mêmes requêtes.

Correction : Chaque page doit avoir un <title> unique qui décrit précisément son contenu. 50-60 caractères, mot-clé principal, nom de marque en fin.

7. Plusieurs H1 — ou pas de H1 du tout

Le H1 est le titre principal de votre page. Il doit être unique, présent, et cohérent avec le <title>.

Ce que je vois :

Des pages sans H1 (le titre visuel est un H2 ou un <p> stylisé)
Des pages avec 3 ou 4 H1 (souvent des composants qui intègrent chacun leur propre balise)
Un H1 vide parce que le CMS génère <h1></h1> par défaut

Sur les frameworks JavaScript (React, Vue, Next.js), le problème des H1 multiples est particulièrement courant : chaque composant de section peut inclure son propre H1 sans que le développeur s'en rende compte.

Correction : Un seul H1 par page, visible sans scroller (above-fold idéalement), qui contient le mot-clé principal de la page.

8. Des chaînes de redirects

/ancienne-url → /url-intermediaire → /url-finale

Chaque redirect dans la chaîne perd un peu de PageRank et ralentit le crawl. Sur un site avec des centaines de redirects en chaîne, l'impact sur le budget de crawl peut être significatif.

Le cas le plus courant : une migration HTTPS mal gérée. L'URL en HTTP redirige vers HTTP/www qui redirige vers HTTPS/www qui redirige vers HTTPS sans www. Quatre URLs, trois redirects, pour arriver à la même page.

Autre cas fréquent : les redirects d'anciennes campagnes jamais nettoyés. J'ai vu des sites avec des chaînes de 5 redirects créées par des migrations successives sur 10 ans.

Correction : Auditez toutes vos redirects et court-circuitez les chaînes pour aller directement de l'URL source à l'URL finale. La règle : jamais plus d'un saut de redirect.

9. Pas de llms.txt en 2026

C'est la nouveauté de ces 18 derniers mois. Le fichier /llms.txt est un standard émergent (adopté par Anthropic, parmi d'autres) qui guide les LLMs sur le contenu prioritaire de votre site.

Son format est simple — un fichier Markdown à la racine qui décrit qui vous êtes, vos pages importantes, et ce que vous faites :

# Nom de votre entreprise

> Description courte de votre activité.

## Pages essentielles
- [Accueil](https://votresite.com): présentation générale
- [Services](https://votresite.com/services): nos prestations
- [À propos](https://votresite.com/a-propos): notre histoire

## Ce que nous faisons
Spécialistes en [domaine] depuis [année].

99% des sites n'ont pas encore ce fichier. C'est un avantage compétitif immédiat dans les moteurs IA.

Correction : Créez /llms.txt en 10 minutes. C'est un fichier texte statique. Aucune excuse pour ne pas l'avoir.

10. Ignorer l'E-E-A-T

L'E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) est devenu central dans les évaluations de qualité de Google depuis les mises à jour de 2022-2024. Ce n'est pas un facteur de ranking direct, mais il influence fortement comment les Quality Raters évaluent votre site — et indirectement, comment les algorithmes apprennent à évaluer des contenus similaires.

Ce que j'observe souvent :

Des articles de blog sans auteur identifié
Une page "À propos" inexistante ou vide
Aucune information sur les qualifications des auteurs
Pas de schema Person ou Organization

Sur les sujets YMYL (Your Money Your Life — santé, finance, juridique), l'E-E-A-T est particulièrement scruté. Mais même hors YMYL, montrer que vos contenus sont écrits par des humains compétents est devenu essentiel depuis la prolifération des contenus IA génériques.

Correction minimum : Une page auteur avec parcours et photo, un schema Person avec sameAs LinkedIn, et une signature sur chaque article.

Ces 10 erreurs ne sont pas des découvertes. Elles existent depuis 10 ans. Ce qui m'étonne encore après 15 ans dans ce métier, c'est leur persistance. La grande majorité des sites que j'audite aujourd'hui ont au moins 5 de ces problèmes — souvent tous les 10.

Vous voulez savoir combien votre site en a ? Lancez un audit Pharone — 90 secondes, 11 dimensions analysées, résultat immédiat.

Les 10 erreurs critiques que je vois dans 90% des audits SEO