Google TurboQuant: LLM Belleği 6 Kat, Hız 8 Kata Kadar
Google Research, TurboQuant adını verdiği yeni sıkıştırma tekniğini 24 Mart 2026’da duyurdu. Amaç basit: büyük dil modellerinin (LLM) en büyük bellek yükü olan KV önbelleğini küçültmek. Google’ın paylaştığı sonuçlara göre TurboQuant, KV önbelleğini 3 bite kadar nicemleyip en az 6 kat bellek tasarrufu sağlıyor; üstelik ölçülebilir bir doğruluk kaybı olmadan. H100’lerde dikkat (attention) hesaplamasını 4…