Google Sitemaps - Pour en savoir plus sur la façon dont Google voit votre site
Google Sitemaps est une initiative de Google (2005, version béta) pour essayer d'améliorer la façon dont les moteurs de recherche indexent les pages web. Intégré fin 2006 dans les Outils pour les webmasters, ce service permet au webmaster d'influencer l'indexation et ainsi modifier le résultat des recherches Google :
site:www.monsite.com
L'objectif de ce service est de
fournir au robot d'exploration (le crawler) une liste des pages à
parcourir, afin d'éviter une lecture complète du site à chaque passage.
Vu du côté du webmaster, l'objectif est d'obtenir rapidement
l'indexation des nouvelles pages, sans attendre la visite du crawler
sur la racine (la home page) du site.
En pratique
S'inscrire à l'adresse : www.google.com/webmasters/sitemaps/
Définir un fichier Sitemaps (voir plus bas).
Placer ce fichier à la racine du site (ou sur une branche, s'il ne concerne que les pages de cette branche).
Faire valider ce fichier par Google.
Après 24 ou 48 heures d'attente, le fichier sera accepté, ou rejeté s'il comporte des erreurs.
Les premières statistiques seront disponibles après 2 à 3 semaines.
Les avantages
Les nouvelles pages sont indexées plus rapidemment.
La
fréquence d'indexation peut être adaptée au contenu des pages, et aux
corrections éventuelles que l'on y apporte. La notion d'information
volatile, peut être formalisée par une indication à donner au crawler.
On peu relativiser
la fréquence et la profondeur d'indexation entre les pages, pour
s'adapter au cycle de vie d'un site Internet. Les pages déjà dans
l'index ne doivent être visitées que de cas en cas, alors que les pages
récentes doivent être analysées en profondeur.
L'utilisation de Sitemaps vient en complément de l'indexation habituelle. Elle ne dispense pas le webmaster de l'inscription de son site sur Google.
Sitemaps n'a pas d'influence directe
sur le PageRank d'une page. A terme, si de plus en plus de sites gèrent
correctement leurs fichiers Sitemaps, l'enregistrement des nouveaux
liens pointant sur une page donnée devrait prendre moins de temps. On
peut donc imaginer que le délai d'évaluation du PageRank en sera
raccourci d'autant.
Les pages destinées aux appareils mobiles
(PDA, GPS, etc ...) peuvent être regroupées dans un fichier
particulier, afin que ces pages soient integrées dans l'index Web mobile.
Générer un ficher Sitemaps
XML-Sitemaps
Crée un fichier avec la home page et les liens de premier niveau
Les 500 premières pages d'un site
Une documentation est disponibleà l'adresse : www.google.com/webmasters/sitemaps/docs/fr/
Adapter un fichier Sitemaps en XML
La structure générale du fichier :
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84
http://www.google.com/schemas/sitemap/0.84/sitemap.xsd">
<url>
<loc> ... xxx ... </loc>
<lastmod> ... xxx ... </lastmod>
<changefreq> ... xxx ... </changefreq>
<priority> ... xxx ... </priority>
</url>
<url>
... xxx ...
</url>
... xxx ...
</urlset>
L'en-tête :
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84
http://www.google.com/schemas/sitemap/0.84/sitemap.xsd">
Elle évoluera certainement au fil des versions de XML et de Google Sitemaps. (juin 2006).
Depuis fin 2006, Google recommande d'utiliser l'espace de noms (namespace) version 0.9 de l'association sitemaps.org.
L'en-tête se présente alors comme suit :
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
Ce protocole est utilisé par les plus grands moteurs de recherche, en plus de Google, ceux de Yahoo et Microsoft.
La définition d'une page :
<loc>http://www.monsite.com/</loc>
<lastmod>2006-06-18</lastmod>
<changefreq>weekly</changefreq>
<priority>0.8</priority>
</url>
Les paramètres d'une page constituent le coeur du système Google Sitemaps :
priority
lastmod
changefreq
L'URL de la page
L'importance relative de la page par rapport à l'ensemble des pages du site (de 0.0 faible, à 1.0 importante). La valeur par défaut est 0.5. C'est une façon de classer les pages d'un site selon l'urgence et l'importance de figurer dans l'index
La date de la dernière modification de la page, dans le format AAAA-MM-JJ, selon la norme ISO 8601 (Éléments de données et formats d'échange -- Échange d'information -- Représentation de la date et de l'heure)
Une valeur indicative relative au caractère volatile ou non de l'information sur la page. En effet, inutile d'indexer chaque mois une page d'actualité quotidienne, ou de traiter tous les jours une page d'archive
Il faut adapter ces paramètre, page par page. Le PageRank d'une page ne sera pas affecté par le paramètre priority et changefreq. On peut même craindre qu'un site dont toutes les pages seraient changefreq=hourly et priority=1.0 ne voie à terme son fichier revu par Sitemaps.
Un fichier Sitemaps réel
Pour visualiser le fichier Sitemaps de ce site :
<loc>http://www.liens-du-vin.ch/le-vin.html</loc>
<lastmod>2006-07-04</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://www.liens-du-vin.ch/le-jus-de-raisin.html</loc>
<lastmod>2006-07-04</lastmod>
<changefreq>weekly</changefreq>
<priority>.5
</url>
<url <loc>http://www.liens-du-vin.ch/vigne-vin-fiches.html</loc>
<lastmod>2006-07-04</lastmod>
<changefreq>weekly</changefreq>
<priority>.5
</url>
Créer un sitemaps pour un compte sur blogger.com
Le fichier sitemap se présente alors comme un flux RSS dont le format est différent de ce qui est présenté ci-dessus. Google accepte ce flux, si l'on suit la méthode présentée ici : Un sitemap pour un compte blogger.com.
Les statistiques Sitemaps
Google fournit, après 2 à 3 semaines d'attente, des statistiques simples, qui certes ne se comparent pas à celles données par Google Analytics, mais permettent une vue d'ensemble de la position du site par rapport aux recherches effectuées.
Des
tableaux indiquant le type de recherche (les mots clés utilisés) et la
géolocalisation de la requête fournissent des indications précieuses
sur la position des pages du site dans le résultat de recherche.
Si le compte Sitemaps est couplé avec un compte Adwords, les requêtes ayant généré des clics sont indiquées.
Articles connexes
Sources
Google Sitemaps. le fichier d'aide.
Webmaster Central Blog, le Blog officiel de Google.
WebRank Info. Forum et outils de référencement.



