Stratégies d'Optimisation pour les Moteurs de Recherche : Comprendre l'Indexation des Contenus Web pour Améliorer la Visibilité en Ligne

Baptiste Lefranc-Morin

Sommaire

Partager sur

Newsletter

TL;DR

SEO : l'indexation

‍

Définition

‍

L'indexation est le processus utilisé par Google et les autres moteurs de recherche pour collecter et stocker des données sur les sites web. Grâce aux crawlers, les moteurs de recherche explorent en permanence les sites web à la recherche de nouvelles pages ou de mises à jour de contenu à ajouter à leur base de données.

‍

Implication

‍

La manière dont le site web est écrit, conçu et structuré a un impact direct sur son indexation.

En fonction de la technologie utilisée pour rédiger et afficher le contenu, l'information sera plus ou moins accessible aux robots d'indexation.

‍

Vous trouverez ci-dessous des recommandations techniques pour optimiser la qualité du code global du site web, les éléments importants à avoir dans l'en-tête, le link building, la gestion SEO d'Ajax, la gestion du sitemap et les paginations.

‍

Doctype

‍

Le standard HTML5 est recommandé pour tous les documents HTML.

<!doctype html>

‍

Charset

‍

Assurez-vous que les pages du site Web utilisent correctement les caractères d'encodage UTF-8.

‍

‍

Canonical

‍

Ajouter des balises canoniques dans la section <head> de toutes les pages html du site web.

‍

<head>

</head>

<body>

...

...

</body>

</html>

‍

Href lang

‍

Ajoutez autant de balises href lang que de versions linguistiques disponibles sur le site web dans la section <head> des pages html du site web :

‍

<!doctype html>

<head>

<title>Titre de la page</title>

</head>

<body>

...

...

</body>

</html>

‍

Externaliser le CSS et Js

‍

Assurez-vous que les fichiers CSS et les fichiers JS lourds sont externalisés (Article ▶here) et intégrés dans les balises <head> et </head> :

‍

Exemple js : <script src="/js/example.js"></script>

Exemple css : <link rel="stylesheet" href="/css/example.css">

Méta titres et descriptions

‍

Doivent être présents sur toutes les pages HTML du site web

‍

<!doctype html>

<head>

<Title>Contenu de la balise title</Title>

</head>

<body>

...

...

</body>

</html>

‍

URLs

‍

Nous recommandons à nos clients d'avoir une page 404 personnalisée :

La page 404 doit respecter l'UX de l'ensemble du site web et afficher des liens vers les pages des catégories principales du site web et un lien vers la page d'accueil
La page 404 doit afficher un message indiquant que l'URL demandée n'existe plus.
S'il existe un outil de recherche sur le site web, ajoutez une fonction de recherche à la page.

‍

Gestion des liens

‍

Uncrawlable Links

‍

Il est utile pour le SEO de mettre en œuvre des liens non extractibles dans le site Web lorsque la destination est importante pour les utilisateurs et les objectifs UX. Ils sont utilisés par exemple dans la gestion des versions de langues et certains menu déroulant.

‍

Exemple <span class="language-switcher__link">fr</span>

Exemple <span class="btn__text">Contactez-nous</span>

Liens texte et image

‍

Comment écrire un lien textuel :

‍

‍

L'ancre d'une image passe par l'attribut alt=.

Pour une image, l'attribut alt ne doit donc pas être laissé vide.

‍

</a>

‍

Les liens nofollow

‍

Introduit en 2005 : lors de sa mise en œuvre, les robots d'indexation ne tenaient pas compte du lien.

‍

Il existait une dichotomie stricte entre les liens "follow" et "nofollow", utilisée comme directive par Google :

Si follow/dofollow > le robot d'exploration suit le lien
Si nofollow > le robot n'a pas suivi le lien.

‍

<a href="<https://URL>;" rel="nofollow">LINK Text</a>

‍

Depuis 2020, il ne s'agit plus de directives mais d'indications. Google a indiqué qu'il pourrait désormais suivre les liens en nofollow s'il considère que le lien est intéressant. Ils n'ont pas donné de détails supplémentaires.

‍

Quelques raisons d'utiliser les liens en nofollow ⏬

Contenu généré par l'utilisateur (UGC) : tels que les commentaires
Recommandation de Google

‍

‍

Lien avec nofollow afin de ne pas donner à des sites web externes une partie de notre autorité PageRank

‍

Règles relatives aux liens internes

‍

Les liens internes sont extrêmement importants, tant pour les robots que pour les utilisateurs. Les liens internes permettent aux robots d'explorer et d'indexer correctement un site web ; pour l'utilisateur, ils lui permettent de naviguer facilement sur le site web.

‍

L'objectif principal est de faire en sorte que la session de l'utilisateur soit la plus longue et la plus fluide possible.

‍

Les liens internes jouent également un rôle dans la diffusion du PageRank. Il permet à la popularité du site web, le jus seo, de se répandre à travers lui.

‍

Les liens internes doivent également être pensés en termes de structure du site. Gardez à l'esprit cette phrase de Laurent Bourelly (SEO Rockstar, fondateur du concept de cocon sémantique) : "Qui est lié à quoi et pourquoi ?"

‍

Cela signifie que les liens internes doivent être pensés judicieusement.

‍

Règles applicables aux pages institutionnelles

‍

Les pages institutionnelles sont :

Mentions légales
CGV, CGU
Pages /cart /panier
Pages d'identification

‍

Pour ces pages qui n'ont pas d'impact commercial direct. Il n'est pas recommandé d'utiliser les attributs nofollow.

‍

La meilleure chose à faire est de limiter le nombre de liens qui ciblent ces pages avec un lien unique :

à partir de l'URL
à partir du plan du site

‍

Sitemap.xml

‍

Qu’est-ce qu’un sitemap XML?

‍

Liste d'urls au format xml contenant diverses informations :

URL
fréquence de mise à jour
priorité d'indexation
URL des images

‍

Ces informations sont données aux moteurs de recherche afin qu'ils puissent explorer plus facilement l'ensemble du site web.

‍

🚨 Quelques conditions :

s'assurer que toutes les URL peuvent être explorées : PAS DE 404, 410, 503
s'assurer qu'il y a des pages "Noindex". La page doit être indexable
Pas de pages bloquées par le fichier robots.txt
Pas de pages qui font l'objet de redirections : 301, 302. Toutes les pages doivent avoir un code 200
Toutes les pages doivent être en "self canonical". L'url qui est stockée dans l'élément canonique doit être l'url de la même page.

‍

‍

Ce fichier peut contenir un maximum de 50 000 URL. La taille maximale du fichier est de 50 Mo.

‍

Soumettre votre fichier

‍

Pour que les moteurs de recherche accèdent facilement à votre fichier sitemap, vous devez :

Soumettez votre index sitemap.xml à Google Search Console et à Bing Webmaster tools.
Indiquez l'URL de votre sitemap dans le dossier racine de votre site web
exemple: https://www.domain.com/sitemap.xml

‍

Robots.txt

‍

Une bonne vidéo de 10 minutes sur ce fichier :

Robots.txt et SEO. Vidéo SEO Abondance

‍

Qu'est-ce qu'un fichier robots.txt ?

‍

Ce document permet d'interdire l'accès à certaines parties de votre site aux robots d'indexation.

Le fichier est stocké à la racine du site web :

exemple : https://www.domain.com/robots.txt

‍

User-agent: *

Disallow: /dossier/

Disallow: /user/

Disallow: /index/

Disallow: /connexion/

Disallow: /*.pdf$

Disallow: /search/

Disallow: /user/register/

Disallow: /user/password/

Disallow: /user/login/

Disallow: /user/logout/

Disallow: /admin/

Sitemap: <https://www.inter-invest.fr/sitemap.xml>;

Disallow : / signifie qu'il est interdit de crawler

Par exemple dans l'exemple ci-dessus, toutes les pages avec la direction /connexion/ sont interdites d'indexation par les crawlers.

Disallow : /*.pdf$ signifie que toutes les URL se terminant par .pdf sont interdites.

Disallow : /*.pdf$ signifie que toutes les URL se terminant par .pdf sont interdites : /search$ > toutes les URL se terminant par search

‍

Soumettez votre fichier

‍

Vous pouvez tester votre fichier robots.txt grâce à Google Search Console.

Les URL interdites dans le fichier robots.txt ne signifient pas que vos pages ne seront pas indexées sur Google.

Elles interdisent le crawl mais pas l'indexation.

Questions fréquentes

No items found.

Baptiste Lefranc-Morin

Founder

Stratégies d'Optimisation pour les Moteurs de Recherche : Comprendre l'Indexation des Contenus Web pour Améliorer la Visibilité en Ligne

Découvrez tout ce qu'il faut savoir sur l'indexation dans votre stratégie SEO !

SEO : l'indexation

‍

Définition

‍

L'indexation est le processus utilisé par Google et les autres moteurs de recherche pour collecter et stocker des données sur les sites web. Grâce aux crawlers, les moteurs de recherche explorent en permanence les sites web à la recherche de nouvelles pages ou de mises à jour de contenu à ajouter à leur base de données.

‍

Implication

‍

La manière dont le site web est écrit, conçu et structuré a un impact direct sur son indexation.

En fonction de la technologie utilisée pour rédiger et afficher le contenu, l'information sera plus ou moins accessible aux robots d'indexation.

‍

Vous trouverez ci-dessous des recommandations techniques pour optimiser la qualité du code global du site web, les éléments importants à avoir dans l'en-tête, le link building, la gestion SEO d'Ajax, la gestion du sitemap et les paginations.

‍

Doctype

‍

Le standard HTML5 est recommandé pour tous les documents HTML.

<!doctype html>

‍

Charset

‍

Assurez-vous que les pages du site Web utilisent correctement les caractères d'encodage UTF-8.

‍

‍

Canonical

‍

Ajouter des balises canoniques dans la section <head> de toutes les pages html du site web.

‍

<head>

</head>

<body>

...

...

</body>

</html>

‍

Href lang

‍

Ajoutez autant de balises href lang que de versions linguistiques disponibles sur le site web dans la section <head> des pages html du site web :

‍

<!doctype html>

<head>

<title>Titre de la page</title>

</head>

<body>

...

...

</body>

</html>

‍

Externaliser le CSS et Js

‍

Assurez-vous que les fichiers CSS et les fichiers JS lourds sont externalisés (Article ▶here) et intégrés dans les balises <head> et </head> :

‍

Exemple js : <script src="/js/example.js"></script>

Exemple css : <link rel="stylesheet" href="/css/example.css">

Méta titres et descriptions

‍

Doivent être présents sur toutes les pages HTML du site web

‍

<!doctype html>

<head>

<Title>Contenu de la balise title</Title>

</head>

<body>

...

...

</body>

</html>

‍

URLs

‍

Nous recommandons à nos clients d'avoir une page 404 personnalisée :

La page 404 doit respecter l'UX de l'ensemble du site web et afficher des liens vers les pages des catégories principales du site web et un lien vers la page d'accueil
La page 404 doit afficher un message indiquant que l'URL demandée n'existe plus.
S'il existe un outil de recherche sur le site web, ajoutez une fonction de recherche à la page.

‍

Gestion des liens

‍

Uncrawlable Links

‍

Il est utile pour le SEO de mettre en œuvre des liens non extractibles dans le site Web lorsque la destination est importante pour les utilisateurs et les objectifs UX. Ils sont utilisés par exemple dans la gestion des versions de langues et certains menu déroulant.

‍

Exemple <span class="language-switcher__link">fr</span>

Exemple <span class="btn__text">Contactez-nous</span>

Liens texte et image

‍

Comment écrire un lien textuel :

‍

‍

L'ancre d'une image passe par l'attribut alt=.

Pour une image, l'attribut alt ne doit donc pas être laissé vide.

‍

</a>

‍

Les liens nofollow

‍

Introduit en 2005 : lors de sa mise en œuvre, les robots d'indexation ne tenaient pas compte du lien.

‍

Il existait une dichotomie stricte entre les liens "follow" et "nofollow", utilisée comme directive par Google :

Si follow/dofollow > le robot d'exploration suit le lien
Si nofollow > le robot n'a pas suivi le lien.

‍

<a href="<https://URL>;" rel="nofollow">LINK Text</a>

‍

Depuis 2020, il ne s'agit plus de directives mais d'indications. Google a indiqué qu'il pourrait désormais suivre les liens en nofollow s'il considère que le lien est intéressant. Ils n'ont pas donné de détails supplémentaires.

‍

Quelques raisons d'utiliser les liens en nofollow ⏬

Contenu généré par l'utilisateur (UGC) : tels que les commentaires
Recommandation de Google

‍

‍

Lien avec nofollow afin de ne pas donner à des sites web externes une partie de notre autorité PageRank

‍

Règles relatives aux liens internes

‍

Les liens internes sont extrêmement importants, tant pour les robots que pour les utilisateurs. Les liens internes permettent aux robots d'explorer et d'indexer correctement un site web ; pour l'utilisateur, ils lui permettent de naviguer facilement sur le site web.

‍

L'objectif principal est de faire en sorte que la session de l'utilisateur soit la plus longue et la plus fluide possible.

‍

Les liens internes jouent également un rôle dans la diffusion du PageRank. Il permet à la popularité du site web, le jus seo, de se répandre à travers lui.

‍

Les liens internes doivent également être pensés en termes de structure du site. Gardez à l'esprit cette phrase de Laurent Bourelly (SEO Rockstar, fondateur du concept de cocon sémantique) : "Qui est lié à quoi et pourquoi ?"

‍

Cela signifie que les liens internes doivent être pensés judicieusement.

‍

Règles applicables aux pages institutionnelles

‍

Les pages institutionnelles sont :

Mentions légales
CGV, CGU
Pages /cart /panier
Pages d'identification

‍

Pour ces pages qui n'ont pas d'impact commercial direct. Il n'est pas recommandé d'utiliser les attributs nofollow.

‍

La meilleure chose à faire est de limiter le nombre de liens qui ciblent ces pages avec un lien unique :

à partir de l'URL
à partir du plan du site

‍

Sitemap.xml

‍

Qu’est-ce qu’un sitemap XML?

‍

Liste d'urls au format xml contenant diverses informations :

URL
fréquence de mise à jour
priorité d'indexation
URL des images

‍

Ces informations sont données aux moteurs de recherche afin qu'ils puissent explorer plus facilement l'ensemble du site web.

‍

🚨 Quelques conditions :

s'assurer que toutes les URL peuvent être explorées : PAS DE 404, 410, 503
s'assurer qu'il y a des pages "Noindex". La page doit être indexable
Pas de pages bloquées par le fichier robots.txt
Pas de pages qui font l'objet de redirections : 301, 302. Toutes les pages doivent avoir un code 200
Toutes les pages doivent être en "self canonical". L'url qui est stockée dans l'élément canonique doit être l'url de la même page.

‍

‍

Ce fichier peut contenir un maximum de 50 000 URL. La taille maximale du fichier est de 50 Mo.

‍

Soumettre votre fichier

‍

Pour que les moteurs de recherche accèdent facilement à votre fichier sitemap, vous devez :

Soumettez votre index sitemap.xml à Google Search Console et à Bing Webmaster tools.
Indiquez l'URL de votre sitemap dans le dossier racine de votre site web
exemple: https://www.domain.com/sitemap.xml

‍