COMMENT FONCTIONNE UN MOTEUR DE RECHERCHE?

Un moteur de recherche est un ensemble de logiciels qui parcourt le Web

Il fonctionne en plusieurs étapes:

  • Il collecte des informations grâce à des robots (spiders ou crawlers).
  • L’indexation des données collectées et la constitution d’une base de données de documents
  • Il traite ensuite les requêtes et classe les résultats en fonction des critères de pertinence et des mots-clés.
  • Il restitue enfin des résultats dans la SERP(pages de résultats).

Comme vous allez le voir dans l’exemple suivant la SERP affiche deux principaux types de contenu:

serp google

  • Les liens organiques, lien naturel obtenu grâce à votre stratégie de référencement naturel.
  • Les liens sponsorisés, qui sont génère via une stratégie de référencement payante type adwords pour le moteur de recherche Google.

Les crawlers ou spiders

Les crawlers (également appelés spiders, robots ou bot) sont des programmes qui visitent en permanence les pages web et leurs liens. Ils reviennent ensuite périodiquement visiter les pages pour prendre en compte les éventuelles modifications.

Le spider trouve une page, la sauvegarde, détecte les liens qu’elle contient, se rend sur les pages que ces liens pointent, etc… et cela 24h / 24, 7j / 7. Courageux c’est robots ;-) .

Plusieurs crawlers sont connus : Googlebot de Google, BingBot de Microsoft ou encore Exabot d’Exalead.

Mais le crawler ne s’arrête pas là, lorsqu’il arrive sur une page , il commence par vérifier s’il ne la connaît pas déjà. Si c’est le cas il contrôle sa version, si celle-ci est plus récente que celle qu’il possède déjà il supprime l’ancienne version et la remplace par la nouvelle.

Ainsi, une page qui est mise à jour quotidiennement sur un site sera visité chaque jour, voir même plusieurs fois par jour par les robots. Tandis qu’une page rarement modifiée sera visitée moins souvent. De plus, la mise à jour des documents dans l’index est quasiment immédiate. Ainsi, une page souvent mise à jour sera disponible à la recherche très vite.

Ces pages récemment crawlées sont identifiables sur Google qui affiche la date de crawling (voir exemple):

crawling google

 

Voila j’espère que vous avez compris un peu mieux le fonctionnement d’un moteur de recherche grâce à ce post.

Add a Comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *