SEO

Stratégies d'Optimisation pour les Moteurs de Recherche : Comprendre l'Indexation des Contenus Web pour Améliorer la Visibilité en Ligne

Baptiste Lefranc-Morin
Partager sur
Newsletter

TL;DR

SEO : l'indexation

Définition

L'indexation est le processus utilisé par Google et les autres moteurs de recherche pour collecter et stocker des données sur les sites web. Grâce aux crawlers, les moteurs de recherche explorent en permanence les sites web à la recherche de nouvelles pages ou de mises à jour de contenu à ajouter à leur base de données.

Implication

La manière dont le site web est écrit, conçu et structuré a un impact direct sur son indexation.

En fonction de la technologie utilisée pour rédiger et afficher le contenu, l'information sera plus ou moins accessible aux robots d'indexation.

Vous trouverez ci-dessous des recommandations techniques pour optimiser la qualité du code global du site web, les éléments importants à avoir dans l'en-tête, le link building, la gestion SEO d'Ajax, la gestion du sitemap et les paginations.

Doctype

Le standard HTML5 est recommandé pour tous les documents HTML.

<!doctype html>

Charset

Assurez-vous que les pages du site Web utilisent correctement les caractères d'encodage UTF-8.

<meta charset="utf-8">

Canonical

Ajouter des balises canoniques dans la section <head> de toutes les pages html du site web.

<head>

<link rel="canonical" href="the url">

</head>

<body>

...

<!-- All the other content -->

...

</body>

</html>

Href lang

Ajoutez autant de balises href lang que de versions linguistiques disponibles sur le site web dans la section <head> des pages html du site web :

<!doctype html>

<html lang="fr">

<head>

<meta charset="utf-8">

<title>Titre de la page</title>

<link rel="canonical" href="the url">

<link rel="alternate" hreflang="en" href="<https://url>; in English">

<link rel="alternate" hreflang="fr" href="<https://url>; en français">

</head>

<body>

...

<!-- All the other content -->

...

</body>

</html>

Externaliser le CSS et Js

Assurez-vous que les fichiers CSS et les fichiers JS lourds sont externalisés (Article ▶here) et intégrés dans les balises <head> et </head> :

Exemple js : <script src="/js/example.js"></script>

Exemple css : <link rel="stylesheet" href="/css/example.css">

Méta titres et descriptions

Doivent être présents sur toutes les pages HTML du site web

<!doctype html>

<html lang="fr">

<head>

<meta name="description" content="Contenu de la balise description">

<Title>Contenu de la balise title</Title>

</head>

<body>

...

<!-- All the other content -->

...

</body>

</html>

URLs

Nous recommandons à nos clients d'avoir une page 404 personnalisée :

  • La page 404 doit respecter l'UX de l'ensemble du site web et afficher des liens vers les pages des catégories principales du site web et un lien vers la page d'accueil
  • La page 404 doit afficher un message indiquant que l'URL demandée n'existe plus.
  • S'il existe un outil de recherche sur le site web, ajoutez une fonction de recherche à la page.

Gestion des liens

Uncrawlable Links

Il est utile pour le SEO de mettre en œuvre des liens non extractibles dans le site Web lorsque la destination est importante pour les utilisateurs et les objectifs UX. Ils sont utilisés par exemple dans la gestion des versions de langues et certains menu déroulant.

Exemple <span class="language-switcher__link">fr</span>

Exemple <span class="btn__text">Contactez-nous</span>

Liens texte et image

Comment écrire un lien textuel :

<a href="<https://URL>;">Text Here</a>

L'ancre d'une image passe par l'attribut alt=.

Pour une image, l'attribut alt ne doit donc pas être laissé vide.

<a href="<https://URL>;">"Text Here">

<img alt="description of the image" src="/templates/images/image1.jpg">

</a>

Les liens nofollow

Introduit en 2005 : lors de sa mise en œuvre, les robots d'indexation ne tenaient pas compte du lien.

Il existait une dichotomie stricte entre les liens "follow" et "nofollow", utilisée comme directive par Google :

  • Si follow/dofollow > le robot d'exploration suit le lien
  • Si nofollow > le robot n'a pas suivi le lien.

<a href="<https://URL>;" rel="nofollow">LINK Text</a>

Depuis 2020, il ne s'agit plus de directives mais d'indications. Google a indiqué qu'il pourrait désormais suivre les liens en nofollow s'il considère que le lien est intéressant. Ils n'ont pas donné de détails supplémentaires.

Quelques raisons d'utiliser les liens en nofollow ⏬

  • Contenu généré par l'utilisateur (UGC) : tels que les commentaires
  • Recommandation de Google

<a href="<https://URL>;" rel="ugc">LINK Text</a>

  • Lien avec nofollow afin de ne pas donner à des sites web externes une partie de notre autorité PageRank

Règles relatives aux liens internes

Les liens internes sont extrêmement importants, tant pour les robots que pour les utilisateurs. Les liens internes permettent aux robots d'explorer et d'indexer correctement un site web ; pour l'utilisateur, ils lui permettent de naviguer facilement sur le site web.

L'objectif principal est de faire en sorte que la session de l'utilisateur soit la plus longue et la plus fluide possible.

Les liens internes jouent également un rôle dans la diffusion du PageRank. Il permet à la popularité du site web, le jus seo, de se répandre à travers lui.

Les liens internes doivent également être pensés en termes de structure du site. Gardez à l'esprit cette phrase de Laurent Bourelly (SEO Rockstar, fondateur du concept de cocon sémantique) : "Qui est lié à quoi et pourquoi ?"

Cela signifie que les liens internes doivent être pensés judicieusement.

Règles applicables aux pages institutionnelles

Les pages institutionnelles sont :

  • Mentions légales
  • CGV, CGU
  • Pages /cart /panier
  • Pages d'identification

Pour ces pages qui n'ont pas d'impact commercial direct. Il n'est pas recommandé d'utiliser les attributs nofollow.

La meilleure chose à faire est de limiter le nombre de liens qui ciblent ces pages avec un lien unique :

  • à partir de l'URL
  • à partir du plan du site

Sitemap.xml

Qu’est-ce qu’un sitemap XML?

Liste d'urls au format xml contenant diverses informations :

  • URL
  • fréquence de mise à jour
  • priorité d'indexation
  • URL des images

Ces informations sont données aux moteurs de recherche afin qu'ils puissent explorer plus facilement l'ensemble du site web.

🚨 Quelques conditions :

  • s'assurer que toutes les URL peuvent être explorées : PAS DE 404, 410, 503
  • s'assurer qu'il y a des pages "Noindex". La page doit être indexable
  • Pas de pages bloquées par le fichier robots.txt
  • Pas de pages qui font l'objet de redirections : 301, 302. Toutes les pages doivent avoir un code 200
  • Toutes les pages doivent être en "self canonical". L'url qui est stockée dans l'élément canonique doit être l'url de la même page.

<link rel="canonical" href="<https://URL>; of the page"/>

Ce fichier peut contenir un maximum de 50 000 URL. La taille maximale du fichier est de 50 Mo.

Soumettre votre fichier

Pour que les moteurs de recherche accèdent facilement à votre fichier sitemap, vous devez :

  • Soumettez votre index sitemap.xml à Google Search Console et à Bing Webmaster tools.
  • Indiquez l'URL de votre sitemap dans le dossier racine de votre site web
  • exemple: https://www.domain.com/sitemap.xml

Robots.txt

Une bonne vidéo de 10 minutes sur ce fichier :

Robots.txt et SEO. Vidéo SEO Abondance

Qu'est-ce qu'un fichier robots.txt ?

Ce document permet d'interdire l'accès à certaines parties de votre site aux robots d'indexation.

Le fichier est stocké à la racine du site web :

User-agent: *

Disallow: /dossier/

Disallow: /user/

Disallow: /index/

Disallow: /connexion/

Disallow: /*.pdf$

Disallow: /search/

Disallow: /user/register/

Disallow: /user/password/

Disallow: /user/login/

Disallow: /user/logout/

Disallow: /admin/

Sitemap: <https://www.inter-invest.fr/sitemap.xml>;

Disallow : / signifie qu'il est interdit de crawler

Par exemple dans l'exemple ci-dessus, toutes les pages avec la direction /connexion/ sont interdites d'indexation par les crawlers.

Disallow : /*.pdf$ signifie que toutes les URL se terminant par .pdf sont interdites.

Disallow : /*.pdf$ signifie que toutes les URL se terminant par .pdf sont interdites : /search$ > toutes les URL se terminant par search

Soumettez votre fichier

Vous pouvez tester votre fichier robots.txt grâce à Google Search Console.

Les URL interdites dans le fichier robots.txt ne signifient pas que vos pages ne seront pas indexées sur Google.

Elles interdisent le crawl mais pas l'indexation.

Questions fréquentes

No items found.
Baptiste Lefranc-Morin
Founder

Stratégies d'Optimisation pour les Moteurs de Recherche : Comprendre l'Indexation des Contenus Web pour Améliorer la Visibilité en Ligne

SEO : l'indexation

Définition

L'indexation est le processus utilisé par Google et les autres moteurs de recherche pour collecter et stocker des données sur les sites web. Grâce aux crawlers, les moteurs de recherche explorent en permanence les sites web à la recherche de nouvelles pages ou de mises à jour de contenu à ajouter à leur base de données.

Implication

La manière dont le site web est écrit, conçu et structuré a un impact direct sur son indexation.

En fonction de la technologie utilisée pour rédiger et afficher le contenu, l'information sera plus ou moins accessible aux robots d'indexation.

Vous trouverez ci-dessous des recommandations techniques pour optimiser la qualité du code global du site web, les éléments importants à avoir dans l'en-tête, le link building, la gestion SEO d'Ajax, la gestion du sitemap et les paginations.

Doctype

Le standard HTML5 est recommandé pour tous les documents HTML.

<!doctype html>

Charset

Assurez-vous que les pages du site Web utilisent correctement les caractères d'encodage UTF-8.

<meta charset="utf-8">

Canonical

Ajouter des balises canoniques dans la section <head> de toutes les pages html du site web.

<head>

<link rel="canonical" href="the url">

</head>

<body>

...

<!-- All the other content -->

...

</body>

</html>

Href lang

Ajoutez autant de balises href lang que de versions linguistiques disponibles sur le site web dans la section <head> des pages html du site web :

<!doctype html>

<html lang="fr">

<head>

<meta charset="utf-8">

<title>Titre de la page</title>

<link rel="canonical" href="the url">

<link rel="alternate" hreflang="en" href="<https://url>; in English">

<link rel="alternate" hreflang="fr" href="<https://url>; en français">

</head>

<body>

...

<!-- All the other content -->

...

</body>

</html>

Externaliser le CSS et Js

Assurez-vous que les fichiers CSS et les fichiers JS lourds sont externalisés (Article ▶here) et intégrés dans les balises <head> et </head> :

Exemple js : <script src="/js/example.js"></script>

Exemple css : <link rel="stylesheet" href="/css/example.css">

Méta titres et descriptions

Doivent être présents sur toutes les pages HTML du site web

<!doctype html>

<html lang="fr">

<head>

<meta name="description" content="Contenu de la balise description">

<Title>Contenu de la balise title</Title>

</head>

<body>

...

<!-- All the other content -->

...

</body>

</html>

URLs

Nous recommandons à nos clients d'avoir une page 404 personnalisée :

  • La page 404 doit respecter l'UX de l'ensemble du site web et afficher des liens vers les pages des catégories principales du site web et un lien vers la page d'accueil
  • La page 404 doit afficher un message indiquant que l'URL demandée n'existe plus.
  • S'il existe un outil de recherche sur le site web, ajoutez une fonction de recherche à la page.

Gestion des liens

Uncrawlable Links

Il est utile pour le SEO de mettre en œuvre des liens non extractibles dans le site Web lorsque la destination est importante pour les utilisateurs et les objectifs UX. Ils sont utilisés par exemple dans la gestion des versions de langues et certains menu déroulant.

Exemple <span class="language-switcher__link">fr</span>

Exemple <span class="btn__text">Contactez-nous</span>

Liens texte et image

Comment écrire un lien textuel :

<a href="<https://URL>;">Text Here</a>

L'ancre d'une image passe par l'attribut alt=.

Pour une image, l'attribut alt ne doit donc pas être laissé vide.

<a href="<https://URL>;">"Text Here">

<img alt="description of the image" src="/templates/images/image1.jpg">

</a>

Les liens nofollow

Introduit en 2005 : lors de sa mise en œuvre, les robots d'indexation ne tenaient pas compte du lien.

Il existait une dichotomie stricte entre les liens "follow" et "nofollow", utilisée comme directive par Google :

  • Si follow/dofollow > le robot d'exploration suit le lien
  • Si nofollow > le robot n'a pas suivi le lien.

<a href="<https://URL>;" rel="nofollow">LINK Text</a>

Depuis 2020, il ne s'agit plus de directives mais d'indications. Google a indiqué qu'il pourrait désormais suivre les liens en nofollow s'il considère que le lien est intéressant. Ils n'ont pas donné de détails supplémentaires.

Quelques raisons d'utiliser les liens en nofollow ⏬

  • Contenu généré par l'utilisateur (UGC) : tels que les commentaires
  • Recommandation de Google

<a href="<https://URL>;" rel="ugc">LINK Text</a>

  • Lien avec nofollow afin de ne pas donner à des sites web externes une partie de notre autorité PageRank

Règles relatives aux liens internes

Les liens internes sont extrêmement importants, tant pour les robots que pour les utilisateurs. Les liens internes permettent aux robots d'explorer et d'indexer correctement un site web ; pour l'utilisateur, ils lui permettent de naviguer facilement sur le site web.

L'objectif principal est de faire en sorte que la session de l'utilisateur soit la plus longue et la plus fluide possible.

Les liens internes jouent également un rôle dans la diffusion du PageRank. Il permet à la popularité du site web, le jus seo, de se répandre à travers lui.

Les liens internes doivent également être pensés en termes de structure du site. Gardez à l'esprit cette phrase de Laurent Bourelly (SEO Rockstar, fondateur du concept de cocon sémantique) : "Qui est lié à quoi et pourquoi ?"

Cela signifie que les liens internes doivent être pensés judicieusement.

Règles applicables aux pages institutionnelles

Les pages institutionnelles sont :

  • Mentions légales
  • CGV, CGU
  • Pages /cart /panier
  • Pages d'identification

Pour ces pages qui n'ont pas d'impact commercial direct. Il n'est pas recommandé d'utiliser les attributs nofollow.

La meilleure chose à faire est de limiter le nombre de liens qui ciblent ces pages avec un lien unique :

  • à partir de l'URL
  • à partir du plan du site

Sitemap.xml

Qu’est-ce qu’un sitemap XML?

Liste d'urls au format xml contenant diverses informations :

  • URL
  • fréquence de mise à jour
  • priorité d'indexation
  • URL des images

Ces informations sont données aux moteurs de recherche afin qu'ils puissent explorer plus facilement l'ensemble du site web.

🚨 Quelques conditions :

  • s'assurer que toutes les URL peuvent être explorées : PAS DE 404, 410, 503
  • s'assurer qu'il y a des pages "Noindex". La page doit être indexable
  • Pas de pages bloquées par le fichier robots.txt
  • Pas de pages qui font l'objet de redirections : 301, 302. Toutes les pages doivent avoir un code 200
  • Toutes les pages doivent être en "self canonical". L'url qui est stockée dans l'élément canonique doit être l'url de la même page.

<link rel="canonical" href="<https://URL>; of the page"/>

Ce fichier peut contenir un maximum de 50 000 URL. La taille maximale du fichier est de 50 Mo.

Soumettre votre fichier

Pour que les moteurs de recherche accèdent facilement à votre fichier sitemap, vous devez :

  • Soumettez votre index sitemap.xml à Google Search Console et à Bing Webmaster tools.
  • Indiquez l'URL de votre sitemap dans le dossier racine de votre site web
  • exemple: https://www.domain.com/sitemap.xml

Robots.txt

Une bonne vidéo de 10 minutes sur ce fichier :

Robots.txt et SEO. Vidéo SEO Abondance

Qu'est-ce qu'un fichier robots.txt ?

Ce document permet d'interdire l'accès à certaines parties de votre site aux robots d'indexation.

Le fichier est stocké à la racine du site web :

User-agent: *

Disallow: /dossier/

Disallow: /user/

Disallow: /index/

Disallow: /connexion/

Disallow: /*.pdf$

Disallow: /search/

Disallow: /user/register/

Disallow: /user/password/

Disallow: /user/login/

Disallow: /user/logout/

Disallow: /admin/

Sitemap: <https://www.inter-invest.fr/sitemap.xml>;

Disallow : / signifie qu'il est interdit de crawler

Par exemple dans l'exemple ci-dessus, toutes les pages avec la direction /connexion/ sont interdites d'indexation par les crawlers.

Disallow : /*.pdf$ signifie que toutes les URL se terminant par .pdf sont interdites.

Disallow : /*.pdf$ signifie que toutes les URL se terminant par .pdf sont interdites : /search$ > toutes les URL se terminant par search

Soumettez votre fichier

Vous pouvez tester votre fichier robots.txt grâce à Google Search Console.

Les URL interdites dans le fichier robots.txt ne signifient pas que vos pages ne seront pas indexées sur Google.

Elles interdisent le crawl mais pas l'indexation.

plus de ressources
Voir plus
Faites décoller votre croissance

Accélérez votre croissance aujourd'hui.

Bénéficiez d'audits gratuits de vos campagnes ainsi que d'une proposition de stratégie d'acquisition sur vos leviers payants.

Audit gratuit · Accompagnement sur mesure · Performances

Spark, Droits réservés, 2024.