AMD, Hot Chips 2025’te “UEC-Ready” ilk yapay zekâ ağ bağdaştırıcısını (AI NIC) ayrıntılarıyla anlattı: Pensando Pollara 400.
Şirket, geçtiğimiz yıl AI sistemleri için geliştirilen yeni ağ kartı Pensando Pollara 400’ü tanıtmıştı. Kart, Ultra Ethernet Konsorsiyumu’na (UEC) “hazır” ilk AI NIC olarak öne çıkıyor. 400GbE bant genişliği, NVIDIA ConnectX-7 ile aynı seviyede. NVIDIA, Blackwell Ultra sistemlerle birlikte 800GbE sunan ConnectX-8’i de sevk ediyor.

Öne Çıkan Özellikler
– Programlanabilir donanım veri yolu
– En fazla %25’e kadar performans artışı
– 400GbE hız
– Açık ekosistem
– UEC uyumlu RDMA
– İş tamamlama süresinde düşüş
– Yüksek erişilebilirlik

Mimari ve Platform Uyumu
Pensando ağ çözümleri, AMD’nin veri merkezi tarafındaki EPYC işlemciler ve Instinct hızlandırıcılarla aynı çizgide ilerliyor. Sunucu içinde NIC’ler ve CPU’lar, PCIe anahtarlarıyla bağlanıyor. Pollara 400’ün kendisinde PCIe anahtarı yok; doğrudan PCIe Gen5 x16 arayüzüne takılıyor.

P4 Tabanlı Veri Yolu
Pollara 400’ün kalbinde P4 tabanlı programlanabilir bir mimari var. P4 hattındaki temel bileşenlerden Table Engine (TE), paket başlığı vektöründen ya da hash’ten anahtar üretip gerekli bellek okuma işlemlerini başlatıyor. Match Processing Unit (MPU) ise alan manipülasyonu için alanına özel bir işlemci olarak çalışıyor; bellek, tablo ve PHV arayüzleri ayrı.

İyileştirmeler
– Sanal adresi fiziksel adrese çeviren va2pa bloku sayesinde adres çevirimi hızlanıyor.
– Atomik bellek işlemleri SRAM’e yakın konumlandırılarak gecikme azaltılıyor.
– Veri yolu önbellek tutarlılığı, geçersiz kılma/güncelleme mantığıyla adres aralığı bazında korunuyor.
AI Ağlarında Karşılaşılan Sıkıntılar
Ölçeklenmiş AI kümelerinde bağlantıların yeterince dolmaması (ECMP yük dengeleme kaynaklı), düğüm ve ağ tıkanıklığı, paket kaybı gibi konular performansı vuruyor. AI arka uç ağları genellikle çok yüksek kullanım oranlarıyla çalıştığı için bu sorunlar daha görünür hale geliyor ve işlerin önemli bir kısmı ağda bekleyerek geçiyor.

UEC ile Çözüm
AMD, bu darboğazlara karşı UEC’yi öneriyor. UEC; açık, birlikte çalışabilir, uçtan uca bir iletişim yığını. Bu çözüm, büyük ölçekli AI ve HPC gereksinimlerine uygun, performanslı, ölçeklenebilir ve maliyet etkin.
– Çoklu yol kullanımı (entropi temelli paket dağıtma) ile bağlantıların dengeli doldurulması
– Tıkanıklık kontrolü (RTT, ACK/SACK, ECN geri bildirimiyle pencere boyutunun ayarlanması)
– Kayıp paketlerin seçmeli onayla hızlı yeniden iletimi

Performans
AMD’nin paylaştığı sonuçlara göre Pensando Pollara 400, UEC’ye hazır RDMA yığını ile RoCEv2’ye kıyasla ciddi kazanımlar getiriyor: RoCEv2’de 4 QP ile karşılaştırıldığında ortalama %25, 1 QP senaryosunda ise yaklaşık %40 daha yüksek performans elde ediliyor.

Özetle Pollara 400; 400GbE hız, P4 tabanlı esnek veri yolu, UEC ile çoklu yol ve tıkanıklık kontrolü gibi özellikleri birleştirerek AI kümelerinde ağ tarafındaki beklemeyi azaltmayı hedefliyor. AMD’nin EPYC ve Instinct ekosistemiyle birlikte veri merkezlerinde daha öngörülebilir ve verimli iş tamamlama süreleri vadediliyor.
Kaynak: wccftech.com