NVIDIA’nın geçen ay tanıttığı Rubin AI platformu, Vera CPU’larıyla uzun içerikleri işleyip milyonlarca tokenlık yazılım üretimini hedefliyor. Biz de uzun vadede yapay zekâ GPU’larına, özellikle de yüksek performanslı yongalara olan talebi Positron AI CEO’su Mitesh Agarwal ile konuştuk.
Positron, daha az güç tüketip hava soğutmalı veri merkezlerinde rahatça çalışabilecek yongalar geliştiriyor. Bu önemli, çünkü NVIDIA’nın Rubin AI GPU’ları sıvı soğutma istiyor. Şirket şu anda güç tüketimini ciddi biçimde düşürmeyi amaçlayan Atlas yongaları üzerinde çalışıyor.
Sohbetimizde NVIDIA Rubin’in kullanım alanları, Positron’un ekosistemdeki yeri, GPU kıtlığı ve maliyet-performans dengesi üzerinde durduk. Özel amaçlı yapay zekâ çipleri (ASIC) ve gelecekte üstlenecek rolleri de gündeme geldi. Son olarak, Dünya Ekonomik Forumu’na göre 2023–2030 arasında her yıl yüzde 50 artması beklenen yapay zekâ enerji tüketimini tartıştık.

Hava soğutma, güç verimliliği ve veri merkezi gerçekleri
Isınma turu: Positron, Atlas’ı pahalı sıvı soğutma gerektirmeyen bir form faktörde konumlandırıyor. Bunu nasıl başarıyorsunuz? NVIDIA’nın örneğin Blackwell GPU’larından soğutma tarafında farkınız ne?
Amaç herkesin her yerde kurabileceği bir çözüm sunmak. Bugüne kadar inşa edilen veri merkezlerinin neredeyse tamamı hava soğutmalı. Soğuk hava önden geçer, sunucu ısıtır, süreç basit ilerler. Borulama ya da sıvı devresi kurmaya gerek olmadığı için kurulum ve genişletme de daha ucuz. Mevcut kapasitenin yaklaşık yüzde 95’i hava soğutmalı.
NVIDIA Blackwell ve bir sonraki Rubin nesli ise sıvı soğutma istiyor. Bu da yeni veri merkezi yatırımı, zaman ve maliyet demek. Biz hava soğutmalı olduğumuz için bugün var olan merkezlere doğrudan girebiliyoruz. Yenileme zamanı gelen çok geniş bir kapasite var; onu hedefliyoruz.
Ayrıca hava soğutmalı olmak, sıvı soğutmayı dışladığımız anlamına gelmiyor. İhtiyacı olana sıvı seçenek de sunabiliyoruz. Kritik nokta güç verimliliği. İnferans tarafında NVIDIA GPU’larına kıyasla yaklaşık 2–5 kat daha verimliyiz. Bu sayede tek çipin güç bütçesini 200 W altına indiriyoruz. Örnek vermek gerekirse, şu an Blackwell kart başına yaklaşık 1.200 W tüketiyor. Rubin’in 2.000 W seviyesine çıkacağı konuşuluyor (bu rakam için kaynak sorulduğunda Tom’s Hardware’deki habere atıf yapıldı; NVIDIA yorum yapmadı). Bu güç yoğunluğunda hava soğutma yetmiyor, sıvı şart oluyor.
Positron kartı yaklaşık 400 W seviyesinde, bu yüzden hava soğutma yeterli oluyor. Tercih eden için sıvı soğutma da eklenebilir.
Hava soğutma tercih etmek performanstan feragat anlamına geliyor mu?
Çip tarafında hayır. Atlas en baştan inferans için tasarlandı ve verimliliği orada maksimize ettik. Veri merkezi ölçeğinde bakınca sıvı soğutma enerji tarafında daha verimli; ısı kaybı daha az. Fakat inşa maliyeti yüzde 40–50 daha yüksek ve işletmesi daha karmaşık. Su/soğutucu kaynağı, bakır borulama, bakım masrafları derken tablo değişiyor. Bu yüzden dünyada her iki tip merkez de var olmaya devam edecek. Biz müşteriye “ister hava, ister sıvı” seçeneği veriyoruz. Hava soğutmalı bir merkezde NVIDIA Rubin kullanılamazken Positron rahatlıkla kurulabiliyor; sıvıda ise seçenek daha da genişliyor.
Bu koşullarda hava soğutmalı veri merkezleri yaygınlığını artırabilir mi?
Evet, yeter ki bu merkezler NVIDIA ile rekabet edecek bir çip çözümüne sahip olsun. Bizim varlık sebebimiz de bu. İnferans en hızlı büyüyen alan. NVIDIA’nın mimarisi eğitim ve inferansı bir arada hedefleyen genel amaçlı bir tasarım. Eğitim gereksinimleri bazı birimleri zorunlu kılıyor ve güç tüketimini yukarı çekiyor. Hava tarafında rekabetçi bir çözüm varsa toplam sahip olma maliyeti ve token başına maliyet düşer, ölçeklenme hızlanır.

Pazar dinamikleri, bellek mimarisi ve alternatifler
Artan enerji ve su kullanımı, GPU kıtlığı ve yatırımın geri dönüşü (ROI) gibi etkenler NVIDIA dışı alternatiflere talebi nasıl etkiliyor?
En belirleyici başlık ROI. Biz bunu “dolar başına performans” olarak izliyoruz. Kapex olarak harcadığınız her 1 dolar karşılığında kaç token, kaç görsel, kaç video üretebiliyorsunuz? NVIDIA için bugün en iyimser senaryoda yatırımın geri dönüşü 2–2,5 yıl. Positron Atlas’ta bu süre 15–16 ay civarı. Sonraki nesille 12 ayın altına inmeyi hedefliyoruz. Bazı güç aç uygulamalarda 5 kata kadar daha iyi “dolar başına performans” görüyoruz; burada geri dönüş 6 aya kadar düşebiliyor.
Veri merkezi kıtlığı tarafı da kritik. Örneğin müşterimiz olan Cloudflare gibi şirketlerin büyük kentlerde hâlihazırda veri merkezleri var ve belediyelerden ek güç almak kolay değil. Hava-soğutmalıdan sıvı-soğutmalıya dönüştürme şansları da sınırlı. Eldeki gücü mümkün olan en çok tokene çevirmeleri gerekiyor; burada NVIDIA yerine bizi tercih etmek mantıklı.
Enerji ise herkesin konuştuğu darboğaz. Her Watt-saatten 3–5 kat fazla token çıkarabiliyorsanız gezegen için de daha iyi. Enerji üretimini artırmak şart ama aynı işi çok daha az enerjiyle yapmak iklim açısından büyük kazanım.
GPU kıtlığına gelince: Pek çok alternatif, NVIDIA gibi HBM belleğe dayanıyor ve aynı tedarik darboğazına takılıyor. Bizim bellek mimarimiz farklı; aynı zincire bağlı değiliz. Bu da daha hızlı ölçeklenmemizi sağlıyor.
Atlas’ın AMD EPYC işlemcilere dayandığını gördük. Amazon Trainium ve Google TPU gibi büyük oyuncuların hızlandığı bir ortamda Atlas’ın avantajı ne?
Kullandığımız AMD, CPU tarafı. Orada Intel/AMD/Arm fark etmiyor; NVIDIA sistemlerinde de benzer durum var. Rekabet, AI hızlandırıcılarında: NVIDIA/AMD GPU’ları, Positron kartları, Amazon Trainium, Google TPU gibi. En yeni LLM’lerde benzersiz bellek ve silikon mimarimiz sayesinde NVIDIA ya da AMD GPU’ya kıyasla güçlü bir “dolar başına performans” sunuyoruz. Örneğin Atlas, NVIDIA Hopper tabanlı bir sisteme göre yaklaşık 3,5 kat daha iyi. Atlas ilk neslimiz; gelecek yılın sonunda çıkacak Asimov ile bu farkı Trainium/TPU/AMD/NVIDIA’ya karşı daha da açacağız.
NVIDIA geçen ay inferans odaklı Rubin CPX’i tanıttı. Atlas açısından sizi endişelendiriyor mu?
Hayır. CPX daha çok “prefill” yani girdi tarafını hızlandırıyor. Gelecekte pazarı asıl yönetecek olan ise çıktı üretimi. Video ya da kod üretiminde çıktı hacmi yüksek ve bizim Atlas ile Asimov burada çok verimli. Hatta CPX ile Positron’u birleştirip son derece verimli bir inferans kümesi kurmak mümkün. İnferansta verimlilik kâr marjını doğrudan etkiliyor, bu yüzden iş yüküne özel çiplerin yükseleceğini düşünüyoruz. Pazar çok büyük; 2028’de inferans harcamasının 400 milyar dolar seviyesine çıkacağı öngörülüyor. Küçük bir pay bile ciddi gelir demek.

Atlas’ın belleğinin NVIDIA’dan ayrıştığını söylediniz. Spesifik farklar ve avantajlar neler?
Bellekte iki kritik konu var: bant genişliği kullanımı ve kapasite. Atlas’ta önce bant genişliği kullanımını çözdük. GPU dünyasında en iyi ihtimalle belleğin sunduğu bant genişliğinin yüzde 40–50’si etkin kullanılır. Biz yüzde 90’ın üzerine çıkabiliyoruz. Bu da daha yüksek geçiş ve performans demek.
Sonraki nesilde bu yeteneği korurken kapasiteyi de büyütüyoruz. NVIDIA Rubin’in 288–384 GB aralığında HBM3e ile gelmesi bekleniyor. Biz 2 TB (2.048 GB) hedefliyoruz; yaklaşık 5 kat. Bellek dar boğazına takılan iş yüklerinde bu fark 4–5 kata varan “dolar başına performans” ve “Watt başına performans” getiriyor. Eğitim tarafında darboğaz bellek değilse NVIDIA daha hızlı olabilir; burada iş yükü özelinde ayrışma doğal.
Lider düğüm kapasiteleri sınırlı. Büyükler önceden yer ayırtıyor. Positron üretim tarafında nasıl darboğaz yaşamayacak?
Mevcut Atlas tamamen ABD’de üretiliyor; Intel Foundry kullanıyoruz ve tedarik zinciri ABD içinde. Ölçeklenme konusunda hazırlar. Asimov içinse sipariş büyüklükleri öncelik yaratacak. 2026 sonu için planladığımız süreç düğümü o tarihte daha olgun ve yaygın olacak. Aynı düğümün Arizona’da da devreye girmesi bekleniyor. Bugün konuşulan kıtlığın temel nedeni çoğu zaman wafer değil; bellek alt tabakası (CoWoS). Bizim bellek alt tabakamız farklı, NVIDIA/AMD ile aynı zincire bağlı değiliz.
Özetle: Atlas, olgun bir düğüm ve farklı bellek alt tabakası sayesinde üretimde takılmayacak; talep geldikçe fablar kapasite ayıracak. Doğru mu?
Evet. Atlas tarafı tamamen Intel ve ABD içi kapasiteye dayanıyor. Asimov’da da talep arttıkça fablar ölçekleyebilecek. Darboğaz wafer değil, bellek alt tabakası ve biz burada farklı bir yol izliyoruz.
Özel amaçlı yapay zekâ ASIC’lerinde nasıl bir trend bekliyorsunuz? Talebi ne yükseltir?
Pazar çeşitlilik ister; maliyet baskısı da bunu zorlar. Bu yüzden ASIC’lerin geleceği parlak. Tarih boyunca genel amaçlı çözümlerden, iş yüküne özel yongalara geçişi gördük. İnferansta da aynı yolu bekliyorum. Belirleyici metrik yine “dolar başına performans”. NVIDIA’dan daha iyi olmazsanız anlamlı değilsiniz. Daha düşük performansla gelebilirsiniz ama maliyetiniz bariz düşük olmalı. Google TPU bu açıdan iyi bir örnek; şirket içi maliyet yapısı GPU’ya göre daha avantajlı olduğundan TPU’yu geniş kullanıyor. Pazar büyük; dolar bazında her verimlilik artışı doğrudan marja yazıyor.
Wccftech’i Google’da takip edebilir ya da bizi tercih edilen kaynaklarınıza ekleyerek haber ve incelemelerimizi akışınızda görebilirsiniz.
Kaynak: wccftech.com