bellek optimizasyonu

Google TurboQuant: LLM Belleği 6 Kat, Hız 8 Kata Kadar

Google Research, TurboQuant adını verdiği yeni sıkıştırma tekniğini 24 Mart 2026’da duyurdu. Amaç basit: büyük dil modellerinin (LLM) en büyük bellek yükü olan KV önbelleğini küçültmek. Google’ın paylaştığı sonuçlara göre TurboQuant, KV önbelleğini 3 bite kadar nicemleyip en az 6 kat bellek tasarrufu sağlıyor; üstelik ölçülebilir bir doğruluk kaybı olmadan. H100’lerde dikkat (attention) hesaplamasını 4…

Oku

Oku

1 min

Intel CFO’su, Arrow Lake Refresh İşlemcileri Doğruladı

Intel, Arrow Lake işlemci ailesi için “Refresh” adıyla bir ara güncelleme hazırlıyor. CFO David Zinsner, Nova Lake’ten önce, büyük olasılıkla yıl bitmeden yeni modellerin piyasaya çıkacağını söyledi. Intel’in Arrow Lake Refresh işlemcileri, LGA 1851 platformu için son hamlelerden biri olacak gibi görünüyor. Zinsner, Citi’ye konuşurken masaüstü pazarındaki yavaş performans ve AMD ile açılan fark sorulduğunda…

Oku

Arşiv