LE MOTEUR D’INDEXATION ET LES STOP WORDS

Le moteur d’indexation  et le traitement des stop words par les moteurs de recherche

Une fois les pages web crawlées (voir mon post précédent sur le fonctionnement des moteurs de recherche), le spider envoie au moteur d’indexation les informations collectées. Les systèmes d’indexation se chargent ensuite d’identifier votre les différents mots ainsi que leur positionnement dans le texte.

Le traitement des stops words par les moteurs de recherche

Un stop words ou mots vides ou encore bruit, sont les chaînes de caractères dont le point sémantique est trop faible.

Exemple pour nous Français:

  • « le », « la », « les », « et », « de »…
  • Les lettres et chiffres d’un seul caractères font également parti des stop words
  • Ainsi que les mots spécialisés tel que: « http », « .fr », « .com »

Il est logique de dire que les moteurs de recherche ignorent les stop words qui jouent rarement un rôle intéressant dans la recherches et risquent de ralentir le processus.

Prenons un exemple:

Si ce que je vous raconte est vrai, la recherche entre « moteur de recherche » et « moteur recherche » sera donc la même. Eh bien non ! S’il y a un certain recouvrement entre les deux pages de résultats, elles ne sont pas identiques. Faites le test sur votre machine ;-) .

Alors, pourquoi y a t-il une différence ?

Cela est due au fait que Google tient compte de la proximité des mots entre eux. Reprenons notre exemple « moteur de recherche », ici Google ne tient pas compte  du « de » mais il se souvient tout de même qu’il y a un mot entre « moteur » et « recherche ». En d’autres termes la requête Google analyse le mot clé de cette manière: « moteur * recherche ».

Comment faire alors pour que Google prenne en compte les stop words ?

Si les stop words vous semblent important, utilisez les guillemets « moteur de recherche ». Dans ce cas, Google prend bien en compte le mot vide dans son algorithme.

Enfin le signe + vous permet via par exemple « moteur +de recherche » d’inclure de manière OBLIGATOIRE le mot vide dans la recherche.

One Comment

Add a Comment

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *