Archives de la liste de diffusion ptafflist

Comment analyser 12 téraoctets de données

 
 

Comment analyser 12 téraoctets de données

  • Canada
  • Alpine
Google va être obligé de donner ses fichiers de journalisation de YouTube!
à Viacom. Ça fait 12 téraoctets de données.

Voir:
http://www.radio-canada.ca/radio/techno/accueil-07-04-2008.shtml?ref=rss#103418

Pour travailler à un endroit où des données on en a en ciboles, ça doit
pas être de la petite bière d'analyser 12 TO de données. Juste faire une
lecture, un tri et l'écriture du résultat, ça va prendre du temps ça va
être écoeurant. Les logiciels pour analyser ces logs ne scalent pas à
cette grosseur-là de DB, j'en mettrais ma main au feu.

Je suppose qu'il va leur falloir tout coder, en langage C bien tighté et
optimisé pour une architecture capable de composer avec une telle
dimension de logs. Il pourrait toujours sous-contracter une firme qui
pourrait faire l'analyse. Google par exemple :)

Miguel

P.S. Sont chanceux. Les URL supportant les caractères non-ASCII ne sont
pas encore arrivées.
 

 

Propulsé par xhtmail