NVIDIA geçen ay Rubin AI GPU’larını tanıttıktan sonra, Phononic’in ürünlerden sorumlu yöneticisi Larry Yang ile görüştük. Enerji kısıtlarının AI’ın yayılımını doğrudan etkilediğini düşününce, yeni çiplerin soğutma ihtiyacı en merak edilen başlıklardan biri oldu. Yang; Google, IBM, Microsoft ve Cisco geçmişiyle 30 yılı aşkın tecrübeye sahip. Sohbetimizde NVIDIA ve diğer AI çiplerinin soğutması, ASIC tabanlı özel çözümler ve Phononic’in termolelektrik soğutucularının (TEC) rolü üzerinde durduk.
Sektörde soğutmanın evrimi
Geleneksel yöntem hava soğutma. Isı yayıcı üzerindeki kanatçıklara üflenen hava sıcaklığı alıp kasanın dışına taşıyor. Isı yoğunluğu arttıkça daha yüksek ısı kapasitesine sahip akışkanlara geçiş kaçınılmaz oldu ve veri merkezlerinde sıvı soğutma yeniden öne çıktı. Bu teknoloji yeni değil; ilk IBM ana bilgisayarlardan beri var, son yıllarda AI hızlanınca ana akıma döndü.
Yang, 2022 sonunda hızlanan AI dalgasıyla birlikte soğutma tarafında inovasyon patlaması gördüklerini söylüyor. Sıvı soğutmanın da sınırları konuşuluyor. Microsoft’un deniz altı veri merkezi denemeleri, İskandinavya’daki yer altı kurulumlar ve hatta uzaya veri merkezi gönderme gibi fikirler ilginin boyutunu gösteriyor. Sorunun bir kısmı “mekanik” yaklaşım. Fanlar ve pompalar yavaş tepki veriyor. Bu da “ayarla, bırak” anlayışını körüklüyor ve veri merkezleri çoğu zaman gereğinden serin çalışıyor. Phononic’in bakışı farklı: hareketli parçası olmayan katı hâl soğutma ile sıcak noktaları anlık hedeflemek. Böylece tüm salonu fazla soğutmak yerine, yalnızca ihtiyaç duyulan yerde ve anda enerji harcanıyor.
HBM neden asıl sıcak nokta ve Phononic’in yaklaşımı
Güncel AI iş yüklerinde darboğaz çoğu zaman veri akışı. Bu yüzden GPU’nun etrafına yığılan ve çok geniş veri yolu sunan HBM bellek, performans için kritik. Ancak HBM istifli bir yapı. Alttaki kalıp, üstteki kalıplar yüzünden ısıyı zor atıyor. Sonuç: HBM ısısı GPU’yu sınırlandırıyor, bellek çoğu kartta olması gerekenden düşük hızda çalışıyor.
Phononic’in çözümü noktasal soğutma. Her HBM yığınının üzerine bir TEC yerleştiriliyor. Bu modüller sıvı soğutmalı soğuk plaka ile HBM arasında ek bir sıcaklık farkı yaratıyor. Yerel kontrol yazılımı HBM sıcaklığını izleyip TEC’i anlık açıp kapatıyor, gereksiz soğutmayı önlüyor. AI iş yükleri bellek odaklı olduğu için, HBM kısılması ortadan kalktığında GPU’nun toplam performansı da artıyor.
Blackwell sonrası eğilimler de bu tabloyu destekliyor. Isı yoğunluğu daha da yükseldiği için sıvı soğutma ivme kazandı. Örneğin B200 NVL72 rafı 100–120 kW mertebesinde. Rubin Ultra için konuşulan değerler 600 kW seviyesinde. Raka giren her watt’ın ısı olarak dışarı atılması gerektiğini unutmamak gerekiyor. Rubin tarafında da doğrudan çipe sıvı soğutmanın süreceği belirtiliyor. Phononic, mevcut altyapıyı koruyup TEC ile verimi artırmayı hedefliyor. Daha yüksek bant genişliği ve hız sayesinde ek GPU alımını ertelemek mümkün. Yang’a göre yatırımın geri dönüşü aylarla ölçülecek kadar kısa olabilir.
ASIC cephesi de benzer. Sadece GPU’lar değil, ağ anahtarı ASIC’leri ve birlikte paketlenmiş optikler de çevresindeki yongacıklar yüzünden ısıya takılıyor. Phononic, bu bileşenlerde de noktasal termolelektrik soğutmayla sıcaklıkları yönetmeyi amaçlıyor.
Phononic’in teknolojisi termolelektrik prensibe dayanıyor: elektrik uygulandığında bir yüzey ısınır, diğeri soğur; küçük bir katı hâl ısı pompası gibi çalışır. Şirket bugüne kadar veri merkezlerindeki lazerler ve optik transceiver’lar için 30 milyondan fazla TEC sevk etti. NVIDIA’nın 1.6T optik transceiver’larında termolelektrik bileşenlerin tek tedarikçisi olduklarını belirtiyorlar. GPU tarafında TEC’ler HBM ile soğuk plaka arasına entegre ediliyor. Yerel kontrolcü Redfish tabanlı bir API ile “termal kumaş” yazılımına telemetri gönderiyor. Merkez yazılım yaklaşan iş yükünü bildiğinde kümeleri “turbo” ya da “ekono” moduna alabiliyor. Böylece soğutma da ağ, depolama ve hesaplama gibi yazılımla tanımlanır hale geliyor.
Geleceğe bakışta dönüşüm kaçınılmaz. HBM için mikroyollu sıvı kanalları gibi fikirler masada. Phononic, termolelektrik malzemeyi doğrudan silikona bağlamaya yönelik bir patent üzerinde çalıştığını, bileşenleri daha sıkı entegre ederek ısı transfer katmanlarını azaltmak istediklerini söylüyor. Veri merkezleri ısındıkça, bu tür radikal yaklaşımlar daha hızlı olgunlaşacak.
Kaynak: wccftech.com