Re: Search engines

  • Commercial
  • Lotus Notes
d'accord, mais dans probablement 95%+ des requetes, l'URI n'est pas la cle
de recherche, c'est le contenu.

Et dans ton example, tu utilises un index secondaire pcq ta requête passe
dans l'optimiseur de google et devient: "site:foobar.com"

Fonctionnalité TRES cool en passant. Si tu cherches un article que tu as
déjà rencontré sur cnn.com mais que leur search engine est trop pourri ou
qu'ils en ont simplement pas, tu peux dire a google quelque chose du genre:

site:cnn.com alberta beef et il va te sortir tout les pages qui contienne
"alberta beef" sur le site cnn.com

Je rajuste donc mon tir... Je ne crois pas que l'URL (ou l'URI) fasse
parti de l'index PRIMAIRE étant donné qu'il est TRES rare qu'on cherches
par URL (si on connaissait l'URL ou l'URI, on irait directement au site,
non?)



--
Sébastien Bérubé
(514) 964-1828
berube(à)ca.ibm.com
 

Re: Search engines

  • Canada
  • GNU/Linux
  • Mutt

> Je rajuste donc mon tir... Je ne crois pas que l'URL (ou l'URI) fasse
> parti de l'index PRIMAIRE étant donné qu'il est TRES rare qu'on cherches
> par URL (si on connaissait l'URL ou l'URI, on irait directement au site,
> non?)


Appelle ça comme tu veux, mais Google ne peut pas vivre sans cet index,
puisque lorsque tu cherches "sex" sur Google et que tu as 339 millions
de résultats, ça prend un moyen de les mettre en ordre. Juste par le
contenu ça ferait pas de sens sur Google (si on regarde justement les
premiers hits de cette recherche "sex", clairement ils sont pas là parce
qu'il y a plus de fois le mot "sex" dans le HTML).

Alors un engin de recherche pourrait vivre juste avec l'index "primaire"
mais à ce moment là les anciens trucs (écrire 10000 fois "sex" en blanc
sur fond blanc au bas de la page) fonctionneraient encore (ce que je
soupçonne être le cas avec d'autres engins que Google).

On peut aussi regarder deux pages miroir, et constater qu'ils n'ont pas
le même PageRank - donc ce n'est pas seulement le contenu qui donne un
poids au classement, il y a aussi l'URI auquel les données sont attachées:

http://www.catb.org/~esr/jargon/html/B/bells-and-whistles.html [PR:5]

http://www.faqs.org/docs/jargon/B/bells-and-whistles.html [PR:4]



--
--====|====--
--------================|================--------
Patrice Levesque
http://ptaff.ca/
wayne(à)ptaff.ca
--------================|================--------
--====|====-- GPG: http://ptaff.ca/k.asc ID 9212A432
--
Pièces jointes
 

RE: Search engines

  • Commercial
  • Microsoft Outlook
Je pense qu'ils ont un char et une barge d'indexes - sous-entendant qu'ils
marche de cette façon tout court :)
 

 

Propulsé par xhtmail