Flux RSS - La vie du site - Nouveautés et mises à jour
Assiste.com - Sécurité informatique - Décontamination - Antivirus - Protection - Protection de la Vie Privée Assiste.com - Sécurité informatique préventive - Décontamination - Antivirus - Protection - Protection de la Vie Privée

Webmaster - Élaboration et Soumission d'un SiteMap

Dernière mise à jour : 2018-10-12T14:52 - 12.10.2018
18.06.2015 - 00h00 - Paris - (Assiste - Pierre Pinard) - Modification Baidu.

Notes pour Webmasters à propos des SiteMap.

Qu'est-ce qu'un SiteMap ?Qu'est-ce qu'un SiteMap ?Qu'est-ce qu'un SiteMap ?

Un SiteMap (plan d'un site) est une aide apportée aux moteurs de recherche pour découvrir et référencer les pages d'un site. Cela se présente sous la forme d'un fichier XML au format spécifique. On indique l'emplacement de ce fichier aux divers moteurs de recherche membres de l'organisation SiteMap.org.

Si Google accepte plusieurs formats de fichiers SiteMap, dont un flux RSS, il n'en est pas de même pour les autres moteurs de recherche qui n'acceptent que le protocole (la syntaxe) SiteMap normalisée. Il faut donc créer et maintenir à jour les fichiers sitemap.

A propos des SiteMap, par Google, en français
Site officiel
Syntaxe (protocole) d'un SiteMap, en français
Explications courtes sur la syntaxe

Attention :

Un SiteMap n'est pas suffisant. Le référencement des pages par crawl classique, avec les spiders, est également utilisé par les moteurs utilisant nos sitemap.

Chaque URL doit donc être présente deux fois :

  1. Dans le sitemap
  2. Sous forme d'une URL statique dans le site (un lien, quelque part, doit pointer vers la page et toutes les pages doivent avoir un lien entrant en provenance du site lui-même). Suggestion : faire des pages d'index, chacune pesant moins de 100 KO et ne comportant pas plus de 300 ou 400 liens (l'ancienne limite à 100 liens présents sur une page n'existe plus, mais le maximum, s'il y en a un, est inconnu et pourrait être proportionnel à la taille du contenu rédactionnel de la page).

Comme avec le crawl classique, ce ne sont pas toutes les URL du Sitemap qui sont prises en compte. C'est au bon vouloir du moteur !

Outils générateurs de SitemapOutils générateurs de SitemapOutils générateurs de Sitemap

Le format normalisé actuel est le format 0.90.
YoodaMap format sitemap 0.84
Google Sitemap Generator Nécessite Internet Information Service 5.0 !
SiteMap Builder Abandonné depuis 2005
http://www.xml-sitemaps.com/ (bien mais limité à moins de 500 pages)
http://enarion.net/tools/phpsitemapng/ (outil en php à installer sur un serveur) - Abandonné.
http://gsitecrawler.com/en/download/ (outil sous Windows, gratuit - date de 2007)
http://www.sitemapspal.com/ format 0.84 + fréquence, lastmode, Priority - 2000 pages - Le mode "edit" bugue !
SiteMap XML Dynamic SiteMap Generator En ligne ou en local - Payant
Simple Map Local - Gratuit

Service générateurs de sitemaps en ligne
My-Sitemap.com Limité à 500 pages.
Neuroticweb Google Site Map Generator format sitemap 0.84 (et je n'ai pas compris comment cela fonctionne - il ne lit qu'une page !)
SitemapDoc - XML Sitemap Generator and Editor Limité à 500 pages.

Générateur du code SiteMap à partir d'une liste d'URL
outils-referencement.com
SiteMapX

Mon générateur de SitemapMon générateur de Sitemap et de flux RSSMon générateur de Sitemap

Sert aux petits sites statiques (faits à la main, localement, et uploadés sur un serveur). Aucune utilité pour les sites utilisant des scripts tout faits (blog, etc. ...) pour lesquels les optimisations SEO sont incluses dans le script.

Télécharger le fichier excel / openoffice / libreoffice " Faire un sitemap et un flux RSS ".

Première étape : générer la liste des pages du site (la liste des fichiers web)

  • Pour un site dont le code source est maintenu localement, sur un PC sous Windows.
    Faire un Print Directory avec Karen's Directory Printer en utilisant le filtre "Common HTML/Web files"
    On obtient la liste des fichiers (la liste des noms des pages du site).
    Ouvrir le fichier de sortie avec Notepad et copier

    Faire un sitemap et un flux RSS - Utilisation de Karen's Directory Printer pour extraire la liste des fichiers Web
    Faire un sitemap et un flux RSS - Utilisation de Karen's Directory Printer pour extraire la liste des fichiers Web


  • Pour un site en ligne :
    Utiliser Xenu's Link Sleuth (probablement le meilleur outil pour analyser un site et débusquer des erreurs de liens internes (y compris les ancres) / externes / serveur etc. ...) - Gratuit - A jour - Son auteur hurle également son horreur de la Scientologie, ce qui, en plus, le rend sympathique. J'utilise cet outil depuis sa première publication, en 1997.

    Télécharger et installer Xenu's Link Sleuth
    Lancer une analyse d'URL
    On obtient la liste des URL complètes (contrairement à la méthode précédente où l'on n'obtient que la liste des noms des fichiers (que la liste des noms des pages du site) sans la hiérarchie d'hébergement sur le serveur).
    Exporter le résultat au format .txt (champs séparés par des tabulations - l'ensemble des URL du site sera listé)
    Eliminer les URL non pertinentes
    Copier

Deuxième étape : générer le code XML à partir de la liste obtenue

Deux méthodes :

  1. En utilisant un tableur (Excel, LibreOffice, OpenOffice...) - Génération SiteMap et RSS :

    Permet de générer / maintenir simplement le corps d'un flux RSS et d'un SITEMAP dans un site fait "à la main" (pages statiques par opposition aux pages générées à la volées à partir d'une base de données).

    Télécharger le fichier excel / openoffice / libreoffice " Faire un sitemap et un flux RSS ".

  2. Les colonnes du tableau

    1. Colonne A
      Liste des pages statiques du site obtenue à la première étape avec Karen's Directory Printer ou avec Xenu's Link Sleuth.
      Coller dans cette colonne la liste des noms de fichiers.

    2. Colonne B
      Saisie manuelle - généralement à saisir une fois pour toute et recopier sur toutes les lignes : Chemin d'accès à la page (votre hiérarchie d'hébergement - saisir manuellement - généralement le même contenu pour toutes les pages)

    3. Colonne C
      Calcul : Fabrication de l'URL

    4. Colonne D
      Calcul : Fabrication d'un titre probable de la page (sert uniquement aux flux RSS - inutile pour les sitemap) en supprimant le caractère habituel "_" de remplacement des caractères spéciaux lorsque l'on souhaite éviter l'échappement%

    5. Colonne E
      Saisie manuelle : Le calcul automatique du titre de la page n'étant pas toujours génial, surtout si vos noms de fichiers sont de type 0001.html, 0002.html, etc. ... on fera mieux manuellement. Recopier éventuellement la colonne D sur la colonne E, en valeur, et saisir / corriger manuellement les titres des pages (sert uniquement aux flux RSS - inutile pour les sitemap). Si on ne corrige jamais ces titres, virer cette colonne et utiliser directement la colonne D

    6. Colonne F
      Saisie manuelle : Date obligatoire, sous la forme AAAA-MM-JJ (pour sitemap)

    7. Colonne G
      Manuel : Date facultative, sous forme libre, par exemple JJ.MM.AAAA, pour flux RSS. Ce texte est considéré comme du commentaire.

    8. Colonne H
      Manuel : Texte libre qui sera inséré dans le flux RSS (sert uniquement aux commentaires dans les flux RSS - inutile pour les sitemap)

    9. Colonne I
      Manuel : Sitemap uniquement. Fréquence de changement de la page - Cette donnée est facultative et cherche à indiquer aux moteurs de recherche à quelle fréquence ils doivent revenir lire le contenu de la page. Les moteurs n'en tiennent pas vraiment compte et calculent eux-mêmes la fréquence utile. Un article statique ne changera plus jamais alors qu'une page de news peut changer toutes les minutes). Les valeurs acceptées sont les suivantes :
      • always
      • hourly
      • daily
      • weekly
      • monthly
      • yearly
      • never
      La valeur "always" (toujours) doit être utilisée pour décrire les documents qui changent à chaque accès. La valeur "never" (jamais) doit être utilisée pour décrire les URL archivées.

    10. Colonne J
      Manuel : Sitemap uniquement. Priorité. Si plusieurs pages répondent à la même question, ce code, entre 0,0 et 1,0, permet de dire aux moteurs de recherche qui tiennent éventuellement compte de cette information, quelle est la page à indiquer prioritairement aux visiteurs par rapport aux autres pages de votre site traitant du même sujet. 0,5 par défaut. 0,0 si page marginale, 1,0 si page à proposer en 1er. N'a strictement aucune incidence sur le classement de vos pages par rapports aux autres sites Internet, mais uniquement par rapport à vos autres pages sur le même sujet dans votre même site. La priorité par défaut d'une page est égale à 0,5.

    11. Colonne K
      Lignes RSS - Copier / coller dans le corps du fichier de Flux RSS

    12. Colonne L
      Lignes Sitemap - Copier / coller dans le corps du fichier du sitemap

  3. En utilisant un générateur du code SiteMap à partir d'une liste d'URL
    Coler la liste des URL dans outils-referencement.com


Google Global - Soumission d'un Site et d'un SitemapGoogle Global - Soumission d'un Site et d'un SitemapGoogle Global - Soumission d'un Site et d'un Sitemap


Soumission d'un Site et d'un Sitemap à BingSoumission d'un Site et d'un Sitemap à BingSoumission d'un Site et d'un Sitemap à Bing


Soumission d'un Site et d'un Sitemap à YandexSoumission d'un Site et d'un Sitemap à YandexSoumission d'un Site et d'un Sitemap à Yandex

Attention : nombre de liens maximum par fichier du sitemap : 50.000 liens (le reste n'est pas pris en compte - faire plusieurs fichiers sitemap si plus de 50.000 liens)


Soumission d'un Site et d'un Sitemap à ExaleadSoumission d'un Site et d'un Sitemap à ExaleadSoumission d'un Site et d'un Sitemap à Exalead

Voir dans la liste des moteurs et métamoteurs de recherche


Soumission d'un Site à Open DirectorySoumission d'un Site à Open DirectorySoumission d'un Site à Open Directory

Voir dans la liste des moteurs et métamoteurs de recherche


Soumission d'un Site et d'un Sitemap à YahooSoumission d'un Site et d'un Sitemap à YahooSoumission d'un Site et d'un Sitemap à Yahoo

Voir dans la liste des moteurs et métamoteurs de recherche


Soumission d'un Site à Yahoo DirectorySoumission d'un Site à Yahoo DirectorySoumission d'un Site à Yahoo Directory

Voir dans la liste des moteurs et métamoteurs de recherche


Soumission d'un Site et d'un Sitemap à MSNSoumission d'un Site et d'un Sitemap à MSNSoumission d'un Site et d'un Sitemap à MSN

Voir dans la liste des moteurs et métamoteurs de recherche


Soumission d'un Site et d'un Sitemap à OrangeSoumission d'un Site et d'un Sitemap à OrangeSoumission d'un Site et d'un Sitemap à Orange

Voir dans la liste des moteurs et métamoteurs de recherche


Soumission d'un Site et d'un Sitemap à AskSoumission d'un Site et d'un Sitemap à AskSoumission d'un Site et d'un Sitemap à Ask

Voir dans la liste des moteurs et métamoteurs de recherche


Soumission d'un Site et d'un Sitemap à AOLSoumission d'un Site et d'un Sitemap à AOLSoumission d'un Site et d'un Sitemap à AOL

Voir dans la liste des moteurs et métamoteurs de recherche


Soumission d'un Site et d'un Sitemap à BaiduSoumission d'un Site et d'un Sitemap à BaiduSoumission d'un Site et d'un Sitemap à Baidu

Voir dans la liste des moteurs et métamoteurs de recherche


Soumission d'un Site et d'un Sitemap - AutresSoumission d'un Site et d'un Sitemap - AutresSoumission d'un Site et d'un Sitemap - Autres

Liste des moteurs de recherche

1.cz
123people.com
1881.no
a9.com
abacho.de
abcsok.no
Accoona.com
acoon.de
alexa.com
all.by
allesklar.de
alltheweb.com
altavista.com
aol.com
apollo.lv
apollo7.fr
arama.com
arcor.de
ariadna.elmundo.es
arianna.libero.it
ask.com
baidu.com
base-search.net
bg.setooz.com
biglobe.ne.jp
bing.com
blekko.com
blogdigger.com
blogpulse.com
blogs.icerocket.com
blogsearch.google.com
boardreader.com
browsys.com
busca.orange.es
busca.uol.com.br
buscador.terra.es
cgi.search.biglobe.ne.jp
charter.net
copernic Agent Personal
copernic Agent Professional
crawler.com
cuil.com
daemon-search.com
dasoertliche.de
deusu.de
digg.com/search
dir.gigablast.com
dir.yahoo.com
dmoz.org
dogpile.com
doona.fr
duckduckgo.com
ecosia.org
encrypted.google.com
eniro.se
entireweb.com
eo.st
eurip.com
euroseek.com
everyclick.com
exalead.fr
facebook.com
facesaerch
fastbrowsersearch.com
ferretsoft.com
findloo
fireball.de
firstsfind.com
fixsuche.de
flix.de
forestle.org
fr.dir.com
fr.wedoo.com
friendfeed.com
gais.cs.ccu.edu.tw
geona.net
gigablast.com
gnadenmeer.de
go.mail.ru
gomeo.com
goo.ne.jp
google.com
google.interia.pl
googlesyndicatedsearch.com
govome.com
goyellow.de
gulesider.no
highbeam.com
holmes.ge
hooseek.com
hotbot.com
icq.com
ilse.nl
images.google.com
images.search.yahoo.com
images.yandex.ru
infospace.com
infotiger.com
inktomi.com
innooo
iwon.ask.com
ixquick.com
junglekey.com
jungle-spider.de
jyxo.1188.cz
kataweb.it
ko.search.need2find.com
kvasir.no
latne.lv
lemoteur.fr
lo.st
looksmart.com
luxemil.com
maailm.com
mamma.com
megasearch.co
meinestadt.de
meta.rrzn.uni-hannover.de
meta.ua
metager2.de
mister-wong.com
monstercrawler.com
mozbot.fr
msn.com
mysearch.avg.com
mysearch.com
myspace.com/search
myway.com
najdi.si
neti.ee
news.google.com
nigma.ru
nova.rambler.ru
online.no
otsing.delfi.ee
p.zhongsou.com
paperball.de
pesquisa.clix.pt
pesquisa.sapo.pt
picsearch.com
plazoo.com
poisk.ru
qualigo.at
qwant
recherche.francite.com
rechercher.aliceadsl.fr
req.hit-parade.com
ricerca.virgilio.it
rpmfind.net
s1.metacrawler.de
safehomepage.com
sci-hub.io
sci-hub.ac
sci-hub.bz
sci-hub.cc
sci-hub.org
scour.com
scroogle.org
search.1und1.de
search.aol.com
search.avira.net
search.babylon.com
search.bluewin.ch
search.centrum.cz
search.ch
search.com
search.comcast.net
search.conduit.com
search.daum.net
search.earthlink.net
search.excite.it
search.free.fr
search.freecause.com
search.goo.ne.jp
search.ke.voila.fr
search.lycos.com
search.nate.com
search.naver.com
search.nifty.com
search.peoplepc.com
search.qip.ru
search.rr.com
search.seznam.cz
search.softonic.com
search.tiscali.it
search.winamp.com
search.www.ee
search.yahoo.com
search.yam.com
yippy.com
searchalot.com
searchatlas.centrum.cz
searchcanvas.com
searchy.co.uk
Seekport
sharelook.fr
skynet.be
sm.aport.ru
smart.delfi.lv
so.360.cn
sogou.com
so-net.ne.jp
soolve
soso.com
start.iplay.com
startgoogle.startpagina.nl
startpage.com
startsiden.no
suche.freenet.de
suche.gmx.net
suche.info
suche.t-online.de
suche.web.de
suchmaschine.com
suchnase.de
sweetsearch.com
swisscows.ch
szukaj.onet.pl
szukaj.wp.pl
talktalk.co.uk
technorati.com
teoma.com
tixuma.de
toile.com
toolbarhome.com
torrentz.eu
trouvez.com
trovarapido.com
trusted--search.com
twingly.com
uol.com.br
url.org
video.google.com
vinden.nl
vindex.nl
walhello.info
web.canoe.ca
web.de
web.nl
web.volny.cz
webferret.com
weborama.fr
websearch.com
websearch.cs.com
websearch.rakuten.co.jp
witch.de
www1.dastelefonbuch.de
www2.austronaut.at
www3.zoek.nl
x-recherche.com
yacy.net
yahoo!.com
yandex.ru
yasni.de
yatedo.com
yauba.com
yellowmap.de
yougoo.fr
zapmeta.com
zoeken.nl
zoohoo.cz
zoznam.sk
searx.me