INDEXER SON SITE VIA LE ROBOTS.TXT

Pour que votre site soit pris en compte et indexé par les moteurs de recherche, le fichier robots.txt est nécessaire.

robots.txt
robots.txt

robots-txt

Le fichier robots.txt donne des indications au spider du moteur de recherche sur ce qu’il peut et ne doit pas faire sur votre site. Quand le spider arrive sur votre site, il va rechercher le document présent à l’adresse https://www.monsite.fr/robots.txt avant d’effectuer la moindre aspiration. Si vous avez bien créé votre fichier, il le lit, et en général, suit les indications qui s’y trouvent. S’il ne le trouve pas il considère que rien n’est interdit.

 

A savoir:

  • Il est important que votre fichier robots.txt soit à la racine de votre site. Sinon il ne sera pas pris en compte par le spider.
  • Le fichier robots.txt doit toujours être écrit en minuscules.
  • Attention à ne pas oublier le « s » à « robots ».
  • Les lignes qui commencent par #, sont considérées comme un commentaire.
# All Bots
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-content/
Disallow: /contact
allow: /wp-content/upload/

Dans cet exemple:

  • user-argent: *, signifie que l’accès est accordé à tous les spiders, quels qu’ils soient.
  • Le robots n’ira pas explorer les répertoires /cgi-bin/ et /wp-content/ du serveur ni le fichier contact.html
  • Quant à allow: /wp-content/upload/ il permettra d’inclure le répertoire upload qui se trouve dans wp-content.

Chaque répertoire ou fichier à exclure de l’aspiration du spider doit faire l’objet d’une ligne disallow: spécifique.

  • disallow: /contact, ne permettra l’indexation ni de http://www.vivrealondres.fr/contact/index.html, ni de http://www.vivrealondres.fr/contact.html
  • disallow: /contact/, n’indexera pas http://www.vivrealondres.fr/contact/index.html, mais ne s’appliquera pas à l’adresse http://www.vivrealondres.fr/contact.html

La déclaration du sitemap dans robots.txt

Il faut savoir que le fichier robots.txt permet de déclarer le fichier sitemaps.

Voici comment ça se passe:

sitemap: http://www.votresite.com/sitemaps.xml

Les balises meta robots

La balise <meta name= »robots »> permet d’indiquer à un moteur de recherche la façon dont ils doivent indexer la page.

Une balise <meta name= »robots » content= »attribut1, attribut2″> peut permettre ou interdire l’accès aux spiders des moteurs.

Le champs attribut1 peut prendre:

  • index: page à indexer
  • noindex: interdiction d’indexer cette page

Le champs attribut2 prendra quant à lui:

  • follow: le spider peut suivre les liens contenus dans la page.
  • nofollow: le spider ne peut pas suivre les liens de la page.

Ces balises meta doivent se trouver dans l’en-tête du document html, entre <head> et </head>. Grâce à cette balise l’accès au site peut être plus précisément filtré.

Webmaster tools

A savoir Google propose une procédure d’urgence qui permet d’éliminer plus rapidement des pages web de son index, grâce à l’outil webmaster tools.

Voila grâce au fichier robots.txt et/ou la balise meta robots sur votre plateforme, vous indiquez clairement au spider, ce qu’ils doivent suivre lors de leur prochain passage.

Add a Comment

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *