XML sitemap : le code secret pour une indexation réussie
Bonjour à tous les professionnels et amateurs de référencement ! Aujourd’hui, nous allons parler d’un outil important, le sitemap XML, qui, lorsqu’il est utilisé correctement, peut considérablement améliorer votre classement dans les moteurs de recherche. Cela signifie que nous ne pouvons pas l’ignorer. Commençons donc !
Les plans de site sont un outil simple pour les webmasters qui aide les moteurs de recherche à mieux comprendre la structure et l’importance des pages d’un site web. La base d’un sitemap est un fichier XML qui répertorie les URL, ainsi que des données supplémentaires telles que la date de la dernière mise à jour, la fréquence des modifications et le niveau de priorité par rapport aux autres pages du site. Ces informations aident les moteurs de recherche à explorer efficacement toutes les pages du site et à fournir une indexation intelligente. Les sitemaps XML ne sont pas destinés aux humains, mais uniquement aux robots des moteurs de recherche.
Historique de la création
Au début de l’internet, les moteurs de recherche indexaient les sites web uniquement à l’aide de robots qui parcouraient toutes les pages par le biais de liens. Le nombre sans cesse croissant de sites web sur l’internet faisait de la recherche de nouvelles pages pour les moteurs de recherche une tâche très gourmande en ressources, avec la possibilité que certaines pages importantes ne soient pas découvertes par le robot. C’est alors qu’est née l’idée que les webmasters pourraient informer les moteurs de recherche, dans un format lisible par une machine, de la liste des pages de leur site. C’est ainsi qu’est né le projet Sitemaps.
Le 2 juin 2005, le directeur technique de Google, Shiva Shivakumar, a annoncé dans un billet de blog :
« Nous menons une expérience appelée Google Sitemaps, qui échouera ou dépassera nos rêves les plus fous et rendra l’internet meilleur pour les webmasters et les utilisateurs. Il s’agit d’une version bêta d’un « écosystème » qui peut aider les webmasters à s’acquitter de deux tâches actuelles : informer Google de toutes vos nouvelles pages web ou mises à jour, et augmenter la couverture de vos pages web dans l’index de Google ».
Le 16 novembre 2006, Google, Yahoo ! et Microsoft ont annoncé leur soutien conjoint à Sitemaps 0.90. Comme l’a souligné Tim Mayer, directeur principal de la gestion des produits pour Yahoo Search :
« Le lancement de Sitemaps est important car il permet aux sites web d’utiliser une méthode unifiée et simple pour fournir du contenu et des métadonnées aux moteurs de recherche.
« Les sitemaps aident les webmasters à afficher des contenus que les scanners ont généralement du mal à découvrir, ce qui permet aux utilisateurs de bénéficier d’une expérience de recherche plus complète. »
Cette version de Sitemaps est toujours d’actualité.
Le 11 avril 2007, Ask.com, Google, Microsoft Live Search et Yahoo ! ont annoncé qu’ils prenaient en charge la découverte automatique des fichiers Sitemap à l’aide du fichier robots.txt.
Le 13 mai 2023, Bing a annoncé la suppression de la possibilité de soumettre anonymement un sitemap via une requête HTTP. Le 26 juin 2023, Google a également annulé cette fonctionnalité. Dans les deux cas, il a été indiqué que les spammeurs avaient abusé de cette fonctionnalité.
Dans quels cas un fichier Sitemap est-il nécessaire ?
Selon la documentation officielle de Google, un Sitemap est nécessaire dans trois cas :
● Si vous avez un site web de grande taille (plus de 500 pages) ;
● Si le site web est nouveau et/ou présente des problèmes de liens internes et/ou de masse de liens ;
● Si le site web figure dans Google News ou contient beaucoup de contenu multimédia.
Toutefois, la pratique montre qu’il n’y a aucune garantie qu’un robot trouve toutes les pages d’un site web sans fichier Sitemap. En outre, la présence d’un fichier Sitemap permet au robot d’obtenir plus facilement des informations sur les modifications apportées au site web. C’est pourquoi nous recommandons d’ajouter une carte XML pour tout site web : cela ne peut en aucun cas nuire.
Structure du plan du site
Le fichier Sitemap doit être créé en encodage UTF-8. Les caractères &, ‘, « , >, < doivent être remplacés par leurs masques. L’ordre des URL dans le fichier Sitemap n’a pas d’importance pour les moteurs de recherche.
Le sitemap peut contenir des balises XML :
● urlset ;
● url ;
● loc ;
● lastmod ;
● changefreq ;
● priority.
Examinons-les plus en détail.
Balises requises :
● urlset définit l’espace de noms (norme de protocole).
● url est la balise parent pour chaque entrée.
● loc est une balise enfant pour url et contient l’URL complète de la page (y compris le préfixe du protocole). Elle indique la page actuelle qui sera décrite par des balises optionnelles. Le contenu de cette balise ne doit pas dépasser 2048 caractères.
Balises optionnelles :
● lastmod est une balise enfant pour url et contient la date de la dernière modification de la page actuelle au format W3C Datetime. La date est souvent utilisée dans le format abrégé AAAA-MM-JJ.
● changefreq est une balise enfant pour url et décrit la fréquence prévue des modifications de la page actuelle. Elle peut prendre les valeurs suivantes :
-toujours ;
-toutes les heures ;
-quotidien ;
-hebdomadaire ;
-mensuel ;
-annuellement ;
-jamais.
La balise priority est une balise enfant de la balise url et décrit la priorité relative de la page en cours sur le site web, allant de 0 à 1. La priorité est définie par rapport aux autres pages du même site. La priorité par défaut d’une page est de 0,5.
Exemple de plan du site :
<<br />
<?xml version= »1.0″ encoding= »UTF-8″?><br />
<urlset xmlns= »http://www.sitemaps.org/schemas/sitemap/0.9″><br />
<url><br />
<loc>https://www.example.com/</loc><br />
<lastmod>2023-10-04</lastmod><br />
<changefreq>hebdomadaire</changefreq>
<priorité>1</priorité>
</url><br />
<url><br />
<loc>https://www.example.com/page.html</loc><br />
<lastmod>2023-10-04</lastmod><br />
<changefreq>hebdomadaire</changefreq>
<priorité>0.8</priorité>
</url><br />
</urlset><br />
Fichier index Sitemap
Il existe deux limitations pour les fichiers sitemap. Chaque fichier doit
1. Ne pas contenir plus de 50 000 URL.
2. Avoir une taille maximale de 52 428 800 octets.
Si le plan du site dépasse ces limites, il est nécessaire de créer plusieurs fichiers de plan du site. Chaque fichier doit être mentionné dans le fichier d’index. Les fichiers sitemap de l’index
ne peuvent pas contenir de liens vers plus de 50 000 fichiers sitemap et leur taille ne doit pas dépasser 52 428 800 octets.
Dans Google Search Console, il existe une limitation : vous ne pouvez pas fournir plus de 500 fichiers d’index Sitemap pour chacun de vos sites web.
Le fichier d’index Sitemap peut contenir les balises XML suivantes :
● sitemapindex ;
● sitemap ;
● loc ;
● lastmod.
*La balise sitemapindex est le parent de l’ensemble de l’arbre XML.
*La balise sitemap est le parent de chaque entrée.
*La balise loc est une balise enfant de sitemap et contient l’URL complète de la page (y compris le préfixe du protocole). Le fichier d’index Sitemap ne peut contenir plus de 50 000 balises loc.
*La balise lastmod est facultative et est une balise enfant de sitemap. Elle contient la date de la dernière modification du fichier Sitemap correspondant au format W3C Datetime. La date est le plus souvent utilisée dans le format abrégé AAAA-MM-JJ.
Exemple de fichier d’index
<<br />
<?xml version= »1.0″ encoding= »UTF-8″?><br />
<sitemapindex xmlns= »http://www.sitemaps.org/schemas/sitemap/0.9″><br />
<sitemap><br />
<loc>https://www.example.com/sitemap1.xml</loc><br />
<lastmod>2023-10-04</lastmod><br />
</sitemap><br />
<sitemap><br />
<loc>https://www.example.com/sitemap2.xml</loc><br />
<lastmod>2023-10-04</lastmod><br />
</sitemap><br />
</sitemapindex><br />
Extension du protocole Sitemaps
Il est possible d’étendre le protocole Sitemaps avec un espace de noms personnalisé en le spécifiant dans l’élément racine.
Comment informer les moteurs de recherche de l’emplacement du sitemap ?
Il existe trois façons d’informer les moteurs de recherche de l’emplacement de votre fichier sitemap :
1. Via le panneau des outils pour les webmasters,
2. Par le biais du fichier robots.txt,
3. En utilisant une requête HTTP (cette méthode n’est pas recommandée).
L’envoi du fichier Sitemap via le panneau Google webmaster tools n’est possible que si
vous avez des droits de propriété sur la ressource. Pour ajouter le fichier, vous devez ouvrir la page
Rapport Sitemap, sélectionner la ressource et ajouter l’URL du fichier Sitemap. Il est recommandé de vérifier au préalable si Google a accès au fichier Sitemap.
Voici une vidéo de présentation de Google :
« Les sitemaps dans la Search Console – Formation à la Search Console de Google »
Envoyez le fichier Sitemap via le panneau des outils pour webmasters de Bing.
Notez que vous ne pouvez soumettre un sitemap que pour un site sélectionné dans la liste des sites vérifiés.
Pour envoyer le fichier Sitemap à Baidu, utilisez les Baidu Ziyuan Webmaster Tools. Seuls les sites web de haute qualité qui respectent la législation chinoise, qui ont au moins une page en chinois simplifié et qui ont fait l’objet d’une vérification peuvent soumettre un sitemap à Baidu.
Yahoo et Duckduckgo utilisent le système interne de Bing pour récupérer les sitemaps et découvrir les URL.
Pour informer les moteurs de recherche de l’emplacement du sitemap, vous devez ajouter la directive suivante au fichier robots.txt :
Plan du site : https://www.example.com/sitemap.xml
Ici, à la place de www.example.com, vous ajoutez le domaine de votre site, et à la place de sitemap.xml, l’emplacement du plan du site.
La méthode consistant à ajouter un sitemap par le biais d’une requête HTTP est dépassée. Elle n’est plus en vigueur dans Bing depuis le 13 mai 2023 et dans Google depuis le 26 juin 2023. La principale raison de l’annulation de cette méthode d’ajout d’informations sitemap est le spam. La mise en place d’un script qui enverrait automatiquement votre sitemap en utilisant le protocole http quotidiennement (ou après chaque modification) semblait être une bonne idée. Pour Google, la chaîne envoyée ressemble à ceci :
http://www.google.com/ping?sitemap=https://www.example.com/sitemap.xml
Au fur et à mesure que le nombre de sites web augmentait, la charge sur les serveurs des moteurs de recherche augmentait sensiblement et il a été décidé d’abandonner cette forme d’information sur l’emplacement du plan du site.
Le plan du site et Google
Dans Google, les éléments changefreq et priority spécifiés dans le fichier Sitemap ne sont pas pris en compte lors de l’indexation du site. L’élément changefreq, qui indique la fréquence de modification du contenu d’une page, n’est pas pertinent lorsqu’il existe un élément lastmod qui indique la date de la dernière modification de la page. Enfin, l’élément priority, qui suppose la détermination de la priorité de la page, est subjectif et ne reflète pas fidèlement l’importance réelle de la page par rapport aux autres pages du site.
Il est important de rappeler que Googlebot tient compte de l’attribut lastmod lors de l’analyse des pages, mais si vous lui attribuez une valeur incorrecte, il ne sera plus pris en compte à l’avenir. Le nombre de fichiers Sitemap ne joue aucun rôle dans l’indexation : du côté de Google, tous les fichiers Sitemap sont fusionnés et les URL qu’ils contiennent sont traitées ensemble, quel que soit le nombre de fichiers que vous avez fourni.
Google propose quatre façons de fournir des informations supplémentaires dans le fichier Sitemap :
1. Élargir les URL pour inclure des fichiers graphiques,
2. Développer les URL pour inclure les fichiers vidéo,
3. Inclure des informations sur les différentes langues ou les versions localisées des pages à l’aide de l’attribut hreflang
4. Pour les sites d’information, un type spécial de plan du site peut être utilisé pour fournir des informations sur les dernières mises à jour.
Sitemap et Bing
Le responsable du programme de génération d’index de Bing, Fabrice Canel, déclare :
« L’une des stratégies clés pour l’optimisation des moteurs de recherche (SEO) des sites web est d’avoir des sitemaps de haute qualité qui aident les moteurs de recherche à découvrir et à accéder à tous les contenus pertinents hébergés sur ce site web. Les sitemaps offrent aux propriétaires de sites web un moyen vraiment simple de partager avec chaque moteur de recherche des informations sur le contenu qu’ils ont sur leur site, plutôt que de compter uniquement sur les algorithmes de balayage (c’est-à-dire les scanners, les robots) pour le trouver. »
Il recommande d’éviter un trop grand nombre de fichiers sitemap XML sur le site. Idéalement, il suggère d’utiliser un seul fichier sitemap index qui liste tous les fichiers sitemap pertinents et les fichiers sitemap index.
Pour minimiser le nombre de liens dupliqués et non fonctionnels dans les sitemaps, Bing recommande de créer des sitemaps au moins une fois par jour.
Pour les très grands sites comportant des millions ou des milliards d’URL, la taille totale des fichiers XML sitemap peut atteindre plus de 100 gigaoctets. Dans ce cas, Bing recommande de créer deux jeux de sitemaps et de les alterner quotidiennement.
Sitemap et Baidu
Baidu exige les éléments suivants pour les sitemaps :
● Ne doit pas dépasser 10 Mo; 
● Ne doit pas contenir de caractères chinois; 
● Doit être situé dans le dossier racine de votre site web.
Comment créer un sitemap XML ?
Google propose une liste légèrement obsolète de générateurs de fichiers Sitemap tiers que les webmasters peuvent utiliser ou créer leur propre outil en s’en inspirant. Actuellement, tous les liens ne sont pas actifs, mais beaucoup fonctionnent encore.
Voici quelques services populaires pour la création de sitemaps XML :
Sitemap Writer Pro est un programme qui propose sept types de sitemaps (sitemap standard, Google images, Google news, Google video, Google code search, Google Geo, Google Mobile). Il comprend un crawler intégré pour générer des sitemaps et un gestionnaire FTP pour télécharger le sitemap sur le site web.
Le générateur de sitemap XML comprend un générateur gratuit (jusqu’à 500 pages), un générateur professionnel et un script de serveur écrit en PHP.
My Sitemap Generator est un générateur de sitemap gratuit qui analyse le site web et crée un sitemap XML.
Plugins CMS permettant de créer des sitemaps :
Drupal
Module XML Sitemap – crée un plan du site. Il comprend plusieurs sous-modules permettant d’ajouter des liens sitemap pour le contenu, les éléments de menu et les profils d’utilisateur.
WordPress
Google (XML) Sitemaps Generator – crée automatiquement un sitemap XML. Génère également un sitemap HTML.
Générateur de sitemap XML
IKSWEB XML Sitemap Generator – un plugin léger et compact qui crée un sitemap XML.
Google XML News Sitemap plugin
Le plugin Google News est un logiciel open-source qui permet aux éditeurs de mettre à jour les fichiers Sitemap pour Google News. En plus des fonctionnalités habituelles, il permet aux éditeurs de décrire les types de contenu publiés, ainsi que de spécifier les niveaux d’accès pour les articles individuels.
Joomla
La liste actuelle des plugins permettant de créer un plan de site au format XML pour Joomla est disponible sur le site web du CMS.
Autres formats de plan de site :
Outre le plan de site XML, il existe d’autres formats moins courants de plans de site destinés aux moteurs de recherche.
RSS, mRSS et Atom 1.0
Pour un blog disposant d’un flux RSS ou Atom, vous pouvez utiliser l’URL de ce flux comme source pour créer un fichier Sitemap. Presque toutes les plateformes de blogs offrent la possibilité de créer un flux. Google prend en charge les flux RSS 2.0 et Atom 1.0, ainsi que les flux mRSS (media RSS).
Fichier texte Sitemap
Dans un fichier Sitemap texte, vous ne pouvez ajouter que des URL, chacune sur une ligne distincte. L’extension de ce fichier doit être .txt (par exemple, sitemap.txt).
Conclusion
En conclusion, un sitemap XML est un outil essentiel dans l’arsenal d’un webmaster ou d’un propriétaire de site web. Il s’agit d’un fichier structuré qui aide les moteurs de recherche à analyser et à indexer plus efficacement le contenu de votre site. Dans cet article, nous avons abordé les principaux aspects des sitemaps XML et leur rôle important dans l’optimisation de la visibilité des moteurs de recherche.
Un sitemap XML vous permet de contrôler quelles pages de votre site sont disponibles pour l’indexation et fournit des informations supplémentaires sur chaque page, telles que la date de la dernière mise à jour et la priorité. Les moteurs de recherche peuvent ainsi déterminer avec plus de précision les pages à indexer et la fréquence à laquelle il convient de les revisiter.
L’utilisation des sitemaps XML est un élément clé d’une stratégie de référencement réussie. Ils contribuent à améliorer l’indexation de votre site et donc sa visibilité dans les résultats de recherche.
Il est important de se rappeler qu’un sitemap XML est un outil qui nécessite une mise à jour et une maintenance constantes pour rester actuel et efficace. La mise à jour régulière de votre sitemap permet aux robots de suivre les modifications apportées à votre site et d’en informer les moteurs de recherche.
Chers amis ! Merci d’avoir lu cet article et d’y avoir consacré du temps !
Nous espérons que cet article était intéressant et, surtout, utile !