lundi 10 novembre 2008

Le cloud, à quoi ça sert ?

Connaissez-vous le cloud, non pas le Glaude, célèbre personnage fort en pet, le cloud (prononcez "claude", comme le prénom) qui signifie nuage en langue de Shakespeare ?

Ce billet commence par une banalisation de la notion de cloud ou cloud computing, supportée par les datacenter et les connections numériques, puis il en résume les grands concepts et tendances. Les sources principales sont les sites Gridatacenter, Datacenterknowledge, Datacenterlinks et le rapport du The economist "A special report on corporate IT".

Le passé
A la maison, vous avez été habitué à travailler avec des programmes installés sur votre ordinateur, puis une fois le travail terminé, vous enregistriez vos fichiers sur votre ordinateur.

Mais pour partager votre travail vous deviez ensuite envoyer le fichier par email par exemple.
Dans votre entreprise, vous faisiez de même, mais souvent vous enregistriez les fichiers sur une machine centrale nommée serveur.



Vers plus de collaboration

Aujourd'hui, vous avez de plus en plus d'amis qui utilisent Internet et au travail vous avez besoin de travailler avec les employés d'autres sociétés.
Afin de vous simplifiez la vie, la tendance est de vous offrir des possibilités pour accéder à des programmes qui ne sont plus sur votre machine, mais quelque part sur Internet. Comme on ne sait pas où sont ces machines, on dit qu'elles sont dans les nuages, dans un lieu brumeux, dans le cloud.

Quelques utilisations
D'un point de vue personnel, vous pouvez désormais rédiger vos courriers ou mettre à jour votre livre de compte directement sur Internet et vous pouvez les partager avec votre famille et vos amis.
Pour l'entreprise, au lieu d'avoir vos propres programmes disponibles uniquement au sein de votre entreprise, vous pouvez les partager avec vos partenaires et travailler simultanément avec eux.

Comment ça marche ?
Pour travailler de cette nouvelle façon, il faut :
  • Une connexion Internet fiable,
  • Des machines puissantes sur lesquelles vos programmes vont marcher, car ils ne sont plus sur la vôtre qui, elle, ne fait que vous afficher les fenêtres.
Une connexion Internet professionnelle peut être fiable, mais pour cela, il vous faut payer le prix et bien évidemment, le montant est autrement plus élevé que celui de votre abonnement à la maison.

Coté machines, les sociétés qui offrent ces services ont besoin d'énormes ressources, car nous sommes des millions à les utiliser. Aujourd'hui, ces machines, ces fermes de serveurs, se trouvent dans de grands hangars (Large data centers) et elles sont en moyenne au nombre de 10 000. Demain d'énormes bâtiments (Mega data centers) seront construits et ils contiendront plus 100 000 serveurs multi-core.

Ensuite, les sociétés construisent des hangars sur des lieux éloignés et les relient entre eux afin de s'assurer que toujours, même en cas de panne d'une des fermes des serveurs, les utilisateurs pourront se connecter. Selon le rapport de The Economist, la société qui possède le plus de serveurs est Google. Même si ses serveurs propriétaires sont un peu moins puissants que ceux de ses compétiteurs, l'ensemble serait composé de 2 millions de machines.
Si vous désirez utiliser dans un cadre personnel ces programmes, alors regardez les applications en ligne présentées sur ce blog ou allez sur Yahoo, Google, etc.

Où mettre ces ordinateurs ?
Pour stocker ces ordinateurs, il y a à ce jour deux types de locaux : les datacenters introduits précédemment et les containers.

Datacenter (ferme de serveurs)
Ci dessous, voici une des mutiples vidéos tournées par le site web Datacenterknowledge. Même si le présentateur parle en anglais, langue que vous ne maîtrisez peut-être pas, les images sont intéressantes : Le reportage commence au sous-sol du bâtiment, avec l'arrivée des lignes haute tension, les transformateurs et les UPS. Ces derniers permettent de fournir du courant pendant une quinzaine de secondes grâce à l'énergie cinétique emmagasinée dans des roues lancées à grande vitesse (voir cette vidéo pour plus de détails). Ensuite, vous entrez dans la salle des serveurs qui est presque vide. On y voit les tuyaux de refroidissement. Sur le toit, les groupes et échangeurs qui refroidissent la salle des serveurs. Le présentateur explique que s'il ne fait pas trop chaud, ils n'ont pas besoin de lancer les groupes de froid et donc économisent 30 % d'énergie. A la fin vous allez entrer dans la salle où se trouvent les moteurs diesel qui seront lancés en cas de coupure de la ligne électrique et prendront le relais des UPS pré mentionnés.



Containers
La solution précédente manque de souplesse car tous les serveurs se trouvent sur le même site et agrandir un bâtiment n'est pas simple. Pour offrir plus de souplesse à leurs clients, les constructeurs de ces serveurs conçoivent depuis quelques années des containers identiques à ceux que l'on voit sur les ports de marchandises, mais contenant des ordinateurs prêts à être utilisés. Ci-dessous vidéo de promotion d'un de ces containers dans lequel, vous retrouvez tous les systèmes des datacenters, mais intégrés dans cette cabine et pouvant être installés n'importe où, ou presque.



Une combinaison
Enfin, une dernière solution consiste à mettre des containers dans un bâtiment comme le fait Microsoft à Chicago. La vidéo présentée ci-dessous montre l'outil que cette société utilise pour définir l'architecture de ses fermes de serveurs.



La vidéo ci-dessus présente la solution de la société Sun mais d'autres comme Dell, HP et IBM ont aussi des produits comparables à vous offrir.
Ces solutions permettent aux compagnies qui désirent créer des datacenters de faire des choix de déploiement en fonction de leur stratégie.

Les critères de choix d'un site
Les emplacements des datacenters sont aujourd'hui définis par rapport aux niveaux de risques environnementaux, proximité de ressources énergétiques, mais bientôt, ils le seront aussi en fonction de critères géostratégiques.

Le site Datacenterlinks.com a réalisé un dossier dans lequel il propose une démarche de sélection d'un lieu américain pour construire un datacenter. Il décompose sa réflexion en deux grands axes :
  • Désastre naturel et Terrorisme : tempête, inondation, tremblement de terre, etc.
  • Attractivité et business : qualité de l'air, infrastructure, disponibilité de l'électricité, activités secondaires et tertiaires.
Dans cette phase d'analyse, la proximité du datacenter avec le siège social peut aussi avoir un poids important et les risques peuvent être mitigés par certains essais. Par exemple, une companie désirant implanter ses serveurs dans une région soumise à de fréquents tremblements de terre pourra par exemple utiliser des containers résistants (vidéo) à ce type d'impacts mécaniques.

Un pays parait être le lieu idéal pour abriter ces milliers de serveurs, l'Islande. La température est assez basse, l'énergie est disponible grâce à la géothermie, mais il reste encore des points à améliorer comme le filtrage de l'air qui contient du soufre et la qualité des lignes avec les continents.

Mais comme le fait remarquer le site Elasticvapor (The Geopolitical Cloud), il faut aussi repenser à la relocalisation des données même si elles sont supportées par un ensemble de fermes de serveurs. Nous sommes tous conscients à ce jour que la majorité de ces centres se trouve aux États-Unis, pays où une législation nommée Patriot Act, facilite l'accès aux données stockées par les instances gouvernementales.
Mais techniquement, la relocalisation partielle ou complète du stockage des données est réalisable. Une société pourrait lors de l'établissement d'un contrat, demander que les machines qui supportent ses services, soient situées dans une liste de pays donnée. Pour exemple, on notera que la société SWIFT est en train de construire un datacenter en Suisse afin de ne plus stocker les données Européennes sur le sol américain.

Optimisation, consommation et pollution
Avant d'envisager la possibilité de mettre ses applications dans le nuage (cloud), les sociétés avaient leur propres serveurs qui en moyenne étaient utilisés à 6% de leur capacité. Afin d'optimiser ces ressources l'idée est venue d'externaliser les applications de l'entreprise, mais maintenant la pollution se déporte, la taille et le nombre de datacenters explosent et à terme cette industrie deviendra plus polluante que celle du transport aérien.

L'électricité permet de faire marcher les serveurs, mais aussi les groupes de froids qui évitent que le niveau de la température atteigne un seuil destructif pour les composants électroniques. Afin de se donner une bonne marge de sécurité, les salles contenant ces serveurs étaient climatisées à des températures basses (13 à 22 °C), mais des retours d'expérience venant d'Asie, montrent que déjà la bonne pratique est oubliée tout simplement parce que les alimentations atteignent leurs limites. Cette réflexion sur l'élévation des température est un des sujets important car chaque degré supplémentaire correspond à une économie d'énergie de 4% et Intel suite à une campagne de tests, a annoncé ne pas avoir décelé de défauts particuliers jusqu'à une température de 33°C.

Ainsi le GreenIT n'est pas une démarche visant uniquement à diminuer les consommations et répondre aux critiques, mais aussi pouvoir continuer à croître. Quelques évolutions sont déjà visibles avec Google qui a diminué de 15% la consommation de ses machines en optimisant les alimentations de ses racks propriétaires et Microsoft qui concentre ses architectures autour de ses containers. Cette industrie progresse et sa maturité est éprouvée étape par étape avec des outils de calcul de ROI, de coefficient de d'efficacité comme le Power Usage Effectiveness (PUE) et d'autres indicateurs. Et s'il y a toujours des réseaux dans dix ans, nous verrons de dramatiques changements comme le montre le proget de Google visant à mettre les serveurs en mer pour profiter de l'énergie des vagues.
Même si à ce jour le coût dédié à l'achat des serveurs reste à ce jour plus élevé que la somme des consommations électriques, la facture de cette énergie peut mettre en danger ces sociétés en expansion comme le montre l'exemple de Facebook. Le volume de stockage des données de ses utilisateurs l'amène à faire en permanence l'acquisition de nouvelles machines et à ce jour la note d'électricité est de 1 million de $ par mois.

Type de services et plateforme unifiée
Les concepts présentés précédemment se sont concentrés principalement sur le datacenter qui est une des composantes du cloud. Une confusion peut être faite entre les datecenter appartenant à des sociétés multinationales comme celui de Monsanto, dont on voit la construction ci-dessous et ceux dédiés au cloud.


L'exemple le plus approprié pour parler du cloud et celui de Amazon. Cette société propose un ensemble de services sur lesquels les développeurs de logiciels pourront se baser. Le grand avantage est que vous louez des espaces de stockage de la puissance de calcul selon votre besoin et si un jour le nombre des utilisateurs augmente, il suffira de changer le contrat en quelques clics et demander plus de puissance.

D'un point de vue logiciel, les développeurs n'ont pas à se préoccuper des mécanismes permettant de lancer une ou plusieurs machines ou d'écrire des données simultanément sur plusieurs ordinateurs distants afin d'en assurer le redondance et la disponibilité. Google par exemple dispose respectivement de MapReduce et BigTable pour répondre à ce besoin.
Yahoo developer soutient le projet Open source Hadoop qui est composé respectivement de Pig et HBase pour répondre à ces objectifs.
Du coté de Microsoft la stratégie a été dévoilée fin octobre 2008 lors du PDC 2008. Les détails sur les datacenters avaient déjà été donnés par un responsable de Microsoft Michael Manos et le document de recherche sur les types de déploiement des datacenter montre leur avancement sur le sujet. Mais c'est en regardant la vidéo d'explications de l'architecture de Windows Azure, la plate forme de service de Microsoft dans le cloud que l'on comprend mieux les grands principes. En réalité cette plateforme est principalement conçue pour faire marcher leurs applications dans leurs datacenters avec un haut niveau de disponibilité.

La suite
Les stockages sont disponibles, les applications peuvent être partagées, alors tout est différent car les possibilités sont immenses. Nicola Carr donne dans un récent billet l'exemple d'un journal qui désirait mettre en ligne des documents, mais n'osait l'imaginer car l'investissement en machines était inabordable. En louant quelques heures un service en ligne, le travail fut réalisé et les documents sont en ligne au format PDF.

Mais, il reste un aspect important en plus de celui de l'impact écologique, c'est la connectivité. La disponibilité des systèmes de connexion n'est pas assez fiable et pour cette raison des projets comme Microsoft Mesh devraient amener des solutions pour toujours avoir les applications à portée de clic.

Sources :
Toujour le glaude : Soupe aux Choux
Google Vidéo : Le Glaude (Louis de funes) dans la Soupe au choux
YouTube : DataCenterVideos
YouTube : Data Center World: Flywheel UPS Demonstration
Wikipedia : Alimentation sans interruption
Serverspecs : Microsoft shows off Scry, Chicago data center video
Sun : Project Blackbox
Hewlett-Packard : HP POD
IBM : iDataPlex
Media-tech : Serveurs Google: 2 millions d'unités (Economist). La Singularité en train d'émerger?
The register : Dell squeezes cloud into a shipping container
Datacenterlinks : Cloud Services and Data Center Design
Elasticvapor : The Geopolitical Cloud
The Register : SWIFT to stop processing EU banking data in the US
Bits : Data Centers Are Becoming Big Polluters, Study Finds
Theregister : Get ready for the coming data centre crunch
Sun : Project Black Box test
Green : Toute l'actualité greenIT
Greenlight : Iceland Aims at World’s Green Datacenter Hub
Datacenterknowledge : Google: Raise Your Data Center Temperature
Highscalability : Behind The Scenes of Google Scalability
Perspectives, James Hamilton's blog : Cost of Power in Large-Scale Data Centers
Datacenterknowledge : Facebook: $1 Million A Month in Power Costs
Bits: Google Boasts of Its Energy-Efficient Data Centers
Thegreengrid : Energy efficiency in data centers
The Economist : A special report on corporate IT
Presence-pc : Google : des serveurs en pleine mer ?
MapReduce: Simplified Data Processing on Large Clusters
Bigtable: A Distributed Storage System for Structured Data
Yahoo : Hadoop and Distributed Computing at Yahoo!
Hadoop : Open-source software for reliable, scalable, distributed computing, including:
Michael Manos blog : Out of the Box Paradox - Manifested (aka Chicago Area Data Center begins its journey)
Perspectives, James Hamilton's blog : Embarrasingly Distributed Cloud Services
Channel 9 : PDC 2008
Azure Journal : Présentation de l'architecture de Azure
Channel9 : Manuvir Das: Introducing Windows Azure
Roughtype : The new economics of computing
Mike Karp : Microsoft Rolls Out Windows for the Cloud

Historique :
Création: 10/11/2008
Mise à jour : 01/12/2008. Décomposition des coûts d'un gros datacenter

4 commentaires :

d.durand a dit…

Bonjour Franck,

Beau travail!
[Merci pour le lien]
cordialement
dider

Guigui a dit…

Google envisage de faire des fermes de serveur sous-marines dans les eaux internationales pour réduire les coûts (location et refroidissement)
http://www.presence-pc.com/actualite/Google-serveurs-vagues-31388/

Franck Depierre a dit…

merci, Guigui, j'ai ajouté le lien dans l'article.

Anonyme a dit…

Bonjour,

Bravo pour ces explications très claires et rigoureuses à la fois !
Merci encore.