Nvidia, veri merkezlerindeki AI GPU filolarını tek bir ekrandan izlemeyi ve yönetmeyi kolaylaştıran yeni bir yazılım hizmeti üzerinde çalışıyor. Müşteri tarafına kurulan hafif bir ajan, ayrıntılı GPU telemetrisini toplayıp NGC üzerinde barındırılan merkezi bir panele iletiyor. Operatörler böylece dünya çapındaki tüm donanımlarını ya da belirli “compute zone” gruplarını tek yerden görüp performansı, kullanılabilirliği ve donanım sağlığını takip edebiliyor.
Nasıl çalışıyor?
Hizmet tamamen isteğe bağlı ve müşterinin yönettiği bir kurulum. Nvidia’nın açık kaynak olarak yayımlamayı planladığı ajan, düğüm seviyesindeki GPU kullanımını, yapılandırma bilgilerini ve hata sinyallerini yalnızca okunur biçimde dış servise iletiyor. NGC’nin arayüzü, filonun küresel görünümünü ya da lokasyona göre gruplandırılmış compute zone’ları gösteriyor; ayrıca envanter ve sağlık durumunu özetleyen raporlar üretilebiliyor. Nvidia, sistemde uzaktan müdahale imkânı veya “kill switch” bulunmadığını özellikle vurguluyor.
Toplanan telemetri metrikleri oldukça kapsamlı: anlık güç çekişi ve pikler, sıcaklıklar, hava akışı, kullanım oranları, bellek bant genişliği ve GPU’lar arası bağlantıların (ör. NVLink/PCIe) sağlığı gibi göstergeler filo genelinde izlenebiliyor. Platform, düğümler arasında sürücü ve ayar tutarlılığını da kontrol ederek eğitim işlerinin öngörülebilir şekilde çalışmasına yardımcı oluyor. Bu sayede dengesiz yük dağılımı, bant genişliği tıkanmaları ya da termal darboğazlar gibi performansı sessizce düşüren sorunlar erken aşamada yakalanabiliyor.
Konum doğrulama ve politika boyutu
Yeni yazılımın öne çıkan yönlerinden biri de konum doğrulama. Nvidia’nın anlattığına göre sistem, GPU’ların gizli bilişim (confidential computing) yeteneklerinden ve Nvidia sunucularıyla iletişimde oluşan ağ gecikmesi verilerinden yararlanarak, bir GPU’nun hangi ülkede çalıştığına dair bir tahmin üretebiliyor. Şirket, bu özelliğin ilk etapta Blackwell nesli hızlandırıcılarda devreye gireceğini, önceki nesiller için de seçenekleri değerlendirdiğini belirtiyor. Nvidia aynı zamanda verinin yalnızca okunur olduğunu ve hiçbir şekilde uzaktan devre dışı bırakma altyapısı sunulmadığını yineliyor. Bu yaklaşım, özellikle ABD’de artan kaçakçılık baskısı ve ihracat kısıtlamaları bağlamında dikkat çekiyor.
Nvidia’nın bu hizmeti, mevcut DCGM gibi daha düşük seviyeli sağlık araçlarını ve Base Command gibi iş akışı odaklı platformları tamamlayacak biçimde, filo genelinde ölçeklenebilir bir görünürlük katmanı sunuyor. Yine de sistemin isteğe bağlı olması, güvenlik amacıyla yetkisiz GPU hareketlerini engellemede tek başına yeterli olmayabilir.
Kaynak: www.techspot.com