Et si Facebook stockait ses données chez Amazon s3 ?
le 3 février 2009 à 08:56 par mrbooFacebook héberge (entre autre) plus de 10 milliards de photos.
Ce qui donne un ordre d’idée de la quantité de données qu’ils doivent stocker et afficher via leur infrastructure technique.
Pour le sport, je me suis demandé combien ça leur couterait si ils utilisaient la solution de stockage d’Amazon: S3.
Essayons de voir ce que consomme Facebook:
« Chaque jour, 2 à 3 téra-octets d’images sont mis en ligne sur Facebook, 15 milliards de photos sont visualisées » [source]
« Électricité : 1 M$, Bande passante : 500 000$, Loyer et centres de données 1.25 M$, 50 000 serveurs à acheter : 100 M$ » [source]
Donc, en matière de stockage:
10 milliards de photos, à environ 0,5Mo par photo (il y en a 4 versions, mais pas de HD) ça fait 5 milliards de Mo… soit 5.000 To (wow…)
Si on regarde le tarif Amazon S3, et en doublant la quantité de données (il faut aussi stocker la vidéo et le reste des data) cela donne:
0,12$ x 2 x 5.000.000 Go = 1,2 M$
En matière de bande passante mensuelle:
3 To à uploader chaque jour: 3.000 Go x 30 x 0,10 $ = 9 K$ (lol…)
15 milliards de photos visualisées: une photo en format « écran » pèse environ 100Ko, donc en download:
15.000.000.000 x 0,0001 Go x 0,1 $ = 150 K$
Il me manque trop de données (notamment sur les vidéos) pour pouvoir faire une estimation précise de ce que couterait à Facebook le stockage de ses données chez Amazon.
On peut cependant se rendre compte de quelque chose d’intéressant pour le futur de ce service: le stockage « infini » des données (voir cette demo) n’est pas tenable à long terme sans un business model adapté.
En effet, la majorité des dépenses passent dans le stockage des « anciennes » données (y compris celles supprimées par les utilisateurs mais gardées par Facebook).
Il va donc falloir rentabiliser les données archivées: les récentes annonces du lancement prochain d’offres de datamining marketing vont probablement dans ce sens.








3 février 2009 à 9:23
oula!
ça fout le vertige de bon matin avant le (2eme) café!
3 février 2009 à 9:45
Et je suis surement en dessous de la réalité (il faut ajouter toutes les données comportementales et les statistiques détaillées des utilisateurs)
3 février 2009 à 9:54
Mais pourquoi iraient-ils se faire facturer (au moins le double de ce que ça coute à S3 histoire d’être rentable) un tel service auprès d’un de leurs futurs clients (amazon) et pourquoi ne monteraient-ils pas un service concurrent vu l’infrastructure qu’ils ont dû monter…
3 février 2009 à 10:20
Malheureusement la source concernant le datamining n’est pas très fournie.
J’ai cherché des infos sur ces pratiques à venir, mais j’ai pas trouvé grand chose, tu as autre chose la dessus ?
Enfin, ça me conforte dans l’idée qu’il faut pas mettre d’infos trop perso sur Facedebook !
3 février 2009 à 10:28
JM> Il faut prendre en compte l’ensemble des charges liées au stockage sécurisé des données:
- Hébergement physique des 50.000 serveurs
- Installation/Entretien/remplacement des serveurs
- Électricité
- Bande passante
- Et surtout: spécialistes pour veiller au grain
Les gars de chez smugmug (stockage de photos) avaient fait la démonstration des économies réalisées via s3:
http://blogs.smugmug.com/don/2006/11/10/amazon-s3-show-me-the-money/
Brice>
http://tempsreel.nouvelobs.com/actualites/buzz_sur_le_web/20090202.OBS2782/facebook_veut_ouvrir_sa_base_de_donnees_aux_entreprises.html
3 février 2009 à 16:16
Très intéressant ces petits calculs.
Pour info, est-ce qu’amazon garantie l’intégrité de tes données où est-ce à toi d’organiser des backups ?
3 février 2009 à 16:34
Jean Benoit> Les données stockées chez Amazon sont présentes en triple exemplaire dans 2 lieux différents: difficile de faire mieux de mon coté
3 février 2009 à 22:59
@mrboo : Ok merci pour l’info! Ce serait donc des enquêtes sur solicitation, donc pas d’utilisation de données comme bon leurs semble. Enfin, même si la barrière ne devrait pas durer très longtemps…
Bref, post très intéressant en tout cas