Google Sitemaps - Pour en savoir plus sur la façon dont Google voit votre site


Google Sitemaps est une initiative de Google (2005, version béta) pour essayer d'améliorer la façon dont les moteurs de recherche indexent les pages web. Intégré fin 2006 dans les Outils pour les webmasters, ce service permet au webmaster d'influencer l'indexation et ainsi modifier le résultat des recherches Google :

info:www.monsite.com
site:www.monsite.com


L'objectif de ce service est de fournir au robot d'exploration (le crawler) une liste des pages à parcourir, afin d'éviter une lecture complète du site à chaque passage. Vu du côté du webmaster, l'objectif est d'obtenir rapidement l'indexation des nouvelles pages, sans attendre la visite du crawler sur la racine (la home page) du site.


En pratique


S'inscrire à l'adresse : www.google.com/webmasters/sitemaps/

Définir un fichier Sitemaps (voir plus bas).

Placer ce fichier à la racine du site (ou sur une branche, s'il ne concerne que les pages de cette branche).

Faire valider ce fichier par Google.

Après 24 ou 48 heures d'attente, le fichier sera accepté, ou rejeté s'il comporte des erreurs.

Les premières statistiques seront disponibles après 2 à 3 semaines.


Les avantages


Les nouvelles pages sont indexées plus rapidemment.

La fréquence d'indexation peut être adaptée au contenu des pages, et aux corrections éventuelles que l'on y apporte. La notion d'information volatile, peut être formalisée par une indication à donner au crawler.

On peu relativiser la fréquence et la profondeur d'indexation entre les pages, pour s'adapter au cycle de vie d'un site Internet. Les pages déjà dans l'index ne doivent être visitées que de cas en cas, alors que les pages récentes doivent être analysées en profondeur.

L'utilisation de Sitemaps vient en complément de l'indexation habituelle. Elle ne dispense pas le webmaster de l'inscription de son site sur Google.

Sitemaps n'a pas d'influence directe sur le PageRank d'une page. A terme, si de plus en plus de sites gèrent correctement leurs fichiers Sitemaps, l'enregistrement des nouveaux liens pointant sur une page donnée devrait prendre moins de temps. On peut donc imaginer que le délai d'évaluation du PageRank en sera raccourci d'autant.

Les pages destinées aux appareils mobiles (PDA, GPS, etc ...) peuvent être regroupées dans un fichier particulier, afin que ces pages soient integrées dans l'index Web mobile.


Générer un ficher Sitemaps


Google fournit un générateur de fichiers Sitemaps à installer sur le serveur du site. Pour de petits sites on peut utiliser un outil disponible sur Internet qui génére tout ou partie du fichier Sitemaps, en format texte (csv) ou xml:

SITEMAPSPAL

XML-Sitemaps


Crée un fichier avec la home page et les liens de premier niveau

Les 500 premières pages d'un site


Une documentation est disponibleà l'adresse : www.google.com/webmasters/sitemaps/docs/fr/






Adapter un fichier Sitemaps en XML


Un fichier xml (eXtensible Markup Language) n'est rien d'autre qu'un fichier texte, modifiable avec NotePad. Après correction, il faut simplement prendre garde à le renommer en *.xml. De plus attention à ne pas ajouter d'espaces après le </urlset> final.

La structure générale du fichier :

<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84
http://www.google.com/schemas/sitemap/0.84/sitemap.xsd">
<url>
<loc> ... xxx ... </loc>
<lastmod> ... xxx ... </lastmod>
<changefreq> ... xxx ... </changefreq>
<priority> ... xxx ... </priority>
</url>
<url>
... xxx ...
</url>
... xxx ...
</urlset>


L'en-tête :

<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84
http://www.google.com/schemas/sitemap/0.84/sitemap.xsd">

Elle évoluera certainement au fil des versions de XML et de Google Sitemaps. (juin 2006).
Depuis fin 2006, Google recommande d'utiliser l'espace de noms (namespace) version 0.9 de l'association sitemaps.org.

L'en-tête se présente alors comme suit :

<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

Ce protocole est utilisé par les plus grands moteurs de recherche, en plus de Google, ceux de Yahoo et Microsoft.

La définition d'une page :

<url>
<loc>http://www.monsite.com/</loc>
<lastmod>2006-06-18</lastmod>
<changefreq>weekly</changefreq>
<priority>0.8</priority>
</url>


Les paramètres d'une page constituent le coeur du système Google Sitemaps :


location

priority




lastmod




changefreq




L'URL de la page

L'importance relative de la page par rapport à l'ensemble des pages du site (de 0.0 faible, à 1.0 importante). La valeur par défaut est 0.5. C'est une façon de classer les pages d'un site selon l'urgence et l'importance de figurer dans l'index

La date de la dernière modification de la page, dans le format AAAA-MM-JJ, selon la norme ISO 8601 (Éléments de données et formats d'échange -- Échange d'information -- Représentation de la date et de l'heure)

Une valeur indicative relative au caractère volatile ou non de l'information sur la page. En effet, inutile d'indexer chaque mois une page d'actualité quotidienne, ou de traiter tous les jours une page d'archive


Il faut adapter ces paramètre, page par page. Le PageRank d'une page ne sera pas affecté par le paramètre priority et changefreq. On peut même craindre qu'un site dont toutes les pages seraient changefreq=hourly et priority=1.0 ne voie à terme son fichier revu par Sitemaps.


Un fichier Sitemaps réel



Pour visualiser le fichier Sitemaps de ce site :

<url>
<loc>http://www.liens-du-vin.ch/le-vin.html</loc>
<lastmod>2006-07-04</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://www.liens-du-vin.ch/le-jus-de-raisin.html</loc>
<lastmod>2006-07-04</lastmod>
<changefreq>weekly</changefreq>
<priority>.5
</url>
<url <loc>http://www.liens-du-vin.ch/vigne-vin-fiches.html</loc>
<lastmod>2006-07-04</lastmod>
<changefreq>weekly</changefreq>
<priority>.5
</url>




Créer un sitemaps pour un compte sur blogger.com


Le fichier sitemap se présente alors comme un flux RSS dont le format est différent de ce qui est présenté ci-dessus. Google accepte ce flux, si l'on suit la méthode présentée ici : Un sitemap pour un compte blogger.com.


Les statistiques Sitemaps


Google fournit, après 2 à 3 semaines d'attente, des statistiques simples, qui certes ne se comparent pas à celles données par Google Analytics, mais permettent une vue d'ensemble de la position du site par rapport aux recherches effectuées.
Des tableaux indiquant le type de recherche (les mots clés utilisés) et la géolocalisation de la requête fournissent des indications précieuses sur la position des pages du site dans le résultat de recherche.
Si le compte Sitemaps est couplé avec un compte Adwords, les requêtes ayant généré des clics sont indiquées.



Articles connexes


Sources


Google Sitemaps. le fichier d'aide.

Webmaster Central Blog, le Blog officiel de Google.

WebRank Info. Forum et outils de référencement.




Raccourcis | Confidentialite