> Q: Si tu accède à un URL par IP, est-ce que t'as besoin de passer par un
> DNS?
Non. Cependant, comme le faisait remarquer Seb, depuis HTTP/1.1, c'est
très recommandé de passer le nom du host en header pour permettre
d'avoir du virtual hosting. Démonstration:
$ telnet 213.186.41.103 80
Connected to 213.186.41.103.
Escape character is '^]'.
GET / HTTP/1.1
Host: foobar.ca
<html>.....</html>
Alors, si le search engine sait que foobar.ca est à l'adresse IP
213.186.41.103, effectivement il n'y a pas de besoin de résoudre quelque
DNS que ce soit. Même idée si fredbarney.ca est au même IP aussi.
S'il n'y a qu'un site sur l'IP, le "Host: " peut être bypassé. Mais au
pif c'est < 1% du 'namespace web'.
> J'imaginerais facilement un gain de performance au niveau des crawlers... je
> sais pas à quelle fréquence Google reindexe (j'imagine qu'il fait ça à temps
> plein...)
On gagne de la performance, mais dans la vraie vie, un site web même sur
une IP statique a beaucoup de chances de changer de fournisseur (ou le
fournisseur changer de fournisseur), ne serait-ce qu'une fois. Un engin
de recherche ne peut pas se permettre d'ignorer tout ce qui a déménagé
une fois. De plus, je ne sais pas comment pourraient être gérés les IP
multiples (le contraire du virtual hosting, plusieurs IP pour un seul
nom de domaine) avec un hashtable statique; typiquement ces IP sont
"jetables", pour permettre un failover s'il y a un des serveurs qui
crash.
Google vient visiter ptaff.ca régulièrement (à peu près tous les jours),
cependant rumeur veut que tous les mois il y ait un "GoogleDance" qui
semble être plus majeur comme reconstruction d'index.
> Probablement un gain de vitesse à indexer des digits au lieu de strings...
> Même si y'a le même IP pour plusieurs site, ça aiderait pareille, tant qu'il
> est statique. Si le bon site répond pas à l'IP, faudrait retrouver l'IP
> avant de crawler. Enfin, pures spéculations...
Le trouble qu'étant donné HTTP/1.1, la plupart des serveurs vont
renvoyer une page générique si le virtualhost "Host: " fourni n'existe
pas. Alors si j'essaie de bypasser les DNS et que je force une requête
(Host:) sur le mauvais serveur, je vais me retrouver souvent avec une
page valide, juste pas la bonne page. Alors c'est difficile de savoir
si c'est le bon contenu qui est reçu.
--
--====|====--
--------================|================--------
Patrice Levesque
http://ptaff.ca/
wayne
ptaff.ca
--------================|================--------
--====|====-- GPG: http://ptaff.ca/k.asc ID 9212A432
--