Comme le note Rittal, le développement de l'intelligence artificielle se déroule devant l'entreprise remet en question les centres de données, qui ne peuvent pas être résolus en augmentant le nombre de garde-robes. La formation et l'infection de modèles de gros langues ont passé de la densité de puissance de 10 à 15 kW à des centaines de kilowatts à un seul rack. Le dernier processeur graphique NVIDIA Blackwell reflète environ 1000 en chaleur d'une puce, et des hypersklers tels que Meta ou Microsoft Show Catalina Plateformes, dans laquelle une seule garde-robe atteint 140 kW.

Dans le système de refroidissement de l'air, ce seuil est une barrière physique: l'augmentation de la vitesse du ventilateur augmente le bruit et la consommation d'énergie, et l'air ne collectera pas la chaleur plus rapidement que sa conductivité thermique ne le permet. En conséquence, une autre adoption d'IA menacerait l'augmentation drastique de la PUE (Efficacité de l'utilisation de l'énergie – indice d'efficacité énergétique du centre de données), si l'industrie ne visait pas de nouvelles méthodes de gestion thermique.

Ce qui fonctionne maintenant

La réponse la plus mature se révèle être un refroidissement liquide direct en phase unique. L'eau avec du glycol, maintenue dans la plage de 36-46 ° C, traverse le bloc d'eau pressé directement vers le GPU et le CPU. Il reçoit de l'énergie, puis se rend à l'échangeur de chaleur monté dans la même garde-robe. Le liquide ne change pas l'état de concentration, ce qui rend le système exempt de cavitation et plus facile à utiliser que les systèmes en phase à deux.

Par rapport au refroidissement à l'immersion nœudet le clip auto-bloquant coupe la circulation sans gonfler de gouttes. La première implémentation montre que cette méthode peut être mise à l'échelle à 1 MW de capacité de réfrigération, avec des modules dans le RAD pour contenir 150 kW et propulsés par l'infrastructure de la salle existante.

La surveillance des paramètres de circulation est très importante pour l'acceptation des liquides dans la salle des serveurs. Les dernières unités Rittal combinent les capteurs d'écoulement, la température et la pression dans un contrôleur fermé qui communique sur le réseau OT en temps réel. Les algorithmes de détection des fuites réagissent à une baisse de pression de 0,05 bar avant que la fuite ne devienne visible à l'œil nu. Des filtres magnétiques et de maillage supplémentaires éliminent les particules qui pourraient bloquer les microcanaux du bloc d'eau. Les données vont également au système DCIM et aux plates-formes analytiques du cloud, où les algorithmes d'apprentissage automatique prévoient des défaillances de la pompe et calculez l'indicateur Wue.

Grâce à cela, l'opérateur peut activer ou désactiver dynamiquement les modules de pompe, en maintenant l'efficacité la plus élevée du système avec le point de vue des pics commerciaux de la demande.

Au cours de la prochaine décennie, l'augmentation rapide de la demande de puissance de calcul rendra le refroidissement l'un des facteurs clés déterminant le développement de l'infrastructure d'IA.
Le refroidissement liquide direct (DLC) de Rittal répond déjà à ces défis, permettant un fonctionnement stable de systèmes basé sur des modèles tels que le GPT-4, les Gémeaux ou les générations futures d'Ai multimodal et autonome. De nouvelles solutions DLC pour le refroidissement direct de liquide direct en phase augmentent non seulement la sécurité et l'efficacité avec l'augmentation de la densité de puissance, mais en même temps, réduisent également la piste énergétique et réduisent la surchauffe même avec des centaines de kilowats à un seul rack. Combinée à l'architecture OCP ORV3, à la surveillance intelligente et à la transformation de la puissance DC 48V, Rittal permet la création d'un environnement évolutif et flexible, prêt pour les besoins de l'IA dans l'industrie, la médecine, la finance, le secteur public ou le divertissement. L'avantage clé dans les années à venir sera également l'efficacité énergétique et la possibilité de récupération de chaleur – de plus en plus requise par les réglementations ESG et appréciée par les investisseurs.
L'intelligence artificielle façonnera l'avenir, nous créons des infrastructures qui lui permettra d'agir de manière fiable pendant les prochaines décennies.

Konrad Wójcik – Chef de produit, Rittal

Armoires dans une nouvelle architecture

La nouvelle architecture de la garde-robe va de pair avec le refroidissement liquide. La spécification OCP ORV3 part de 19 ″ à 21 ″ et 48 mm, donnant de la place pour des dissipateurs de chaleur plus grands et des ventilateurs pour des éléments qui ne se refroidissent toujours pas avec du liquide. L'alimentation est prise en charge par un bus CC 48V connecté directement à Busbara. L'absence d'alimentation pour chiens augmente l'efficacité, mais une demande de 200 kW par rack annonce la transition vers 400 V CC, ce qui réduira la section croisée des fils, mais augmentera les exigences pour la sécurité du personnel.

Température de retour à haute teneur en liquide – atteignant souvent jusqu'à 46 ° C – ouvre à son tour un nouveau flux de revenus: ventes d'énergie thermique. Dans la région de Francfort, les districts de logements sont déjà chauffés à partir des salles de serveurs à proximité, et les autorités locales déterminent de plus en plus les permis de construction de l'indicateur de récupération de chaleur.

Rital

D'un point de vue commercial, cela signifie qu'un investissement dans des échangeurs de plaques et une connexion au réseau de chauffage peuvent raccourcir la période de remboursement de la modernisation jusqu'à plusieurs années. Si le bénéficiaire manque dans la zone, le liquide peut conduire les refroidisseurs d'absorption, réduisant les coûts de la climatisation des immeubles de bureaux pendant les mois d'été. Avec le prix croissant des certificats de CO, même la réutilisation interne de la chaleur devient un argument dans les rapports ESG et lors de la négociation de lignes de crédit vertes.

Rittal souligne que pour les services informatiques, il est important d'accepter les plans de migration. La première étape devrait être un audit électrique au niveau de la garde-robe, y compris les nœuds GPU prévus et les alimentations de réseau. La deuxième étape consiste à choisir une garde-robe de test équipée d'un liquide. Il convient d'ajouter ici que les solutions de plug-and-play contiennent 30 à 60 kW et peuvent se tenir à côté des racks traditionnels.

La troisième étape est l'intégration du cadre ORV3 avec plein Directement à puce et un module de pompe d'affilée qui déplace le seuil à 150 kW. Il est important d'inclure l'équipe de gestion des installations au stade pilote au stade du pilote, car le cours des pipelines, l'emplacement de la station de traitement de l'eau et du système de drainage des condensats ont un impact non seulement sur celle-ci, mais aussi sur les services BHP et l'énergie du bâtiment.

Qu'est-ce qui nous attend à l'avenir?

À l'horizon de trois à SO, la densité de puissance dans les armoires doublera et 400 V CC deviendra une norme dans la zone du serveur. Les entreprises qui acquièrent déjà des compétences en plomberie, en surveillance et en courant dirigé en bénéficient un avantage des coûts par rapport à la concurrence. D'autres devront moderniser l'installation en mode d'urgence, risquer les temps d'arrêt et les retards des projets d'IA.

Il vaut la peine de prédire une réserve d'espace pour une CDU supplémentaire et une voie de câble capable de transférer une tension supérieure à cent volts. De plus, la nécessité de formation ne doit pas être sous-estimée: un plombier certifié et un électricien haute tension devraient devenir un membre permanent de l'équipe opérationnelle.

Rital

Rital

La transformation du centre de données cesse d'être un projet d'infrastructure distinct et devient un pilier de la stratégie numérique de l'entreprise. Sans alimentation sûre, refroidissement efficace et récupération de chaleur, la mise à l'échelle des modèles d'IA s'arrêtera au niveau de la présentation de la démonstration. À son tour, des organisations qui traiteront l'investissement dans OCP ORV3, Directement à puce Et la récupération dans le cadre d'un puzzle ouvrira son chemin à une véritable monétisation de l'intelligence artificielle – non seulement par le biais de nouveaux services, mais aussi par des coûts d'exploitation inférieurs et une trace de carbone plus faible.

Quelle que soit la taille du budget, cela vaut la peine de commencer par un pilote. Rittal souligne que l'expérience rassemblée lors de la première garde-robe refroidie par liquide sera inestimable lorsque les GPU de la prochaine génération augmenteront la barre encore plus haut. Plus tôt nous commençons ce chemin, moins nous sentirons la prochaine génération de matériel.

A lire également