Katılım
6 Aralık 2023
Mesajlar
13.308
Makaleler
5
Çözümler
3
Beğeniler
4.773
Google-TurboQuant-LLM-bellegini-6x-dusuruyor-kayipsiz.jpg

Google Research, TurboQuant adını verdiği yeni sıkıştırma tekniğini 24 Mart 2026’da duyurdu. Amaç basit: büyük dil modellerinin (LLM) en büyük bellek yükü olan KV önbelleğini küçültmek. Google’ın paylaştığı sonuçlara göre TurboQuant, KV önbelleğini 3 bite kadar nicemleyip en az 6 kat bellek tasarrufu sağlıyor; üstelik ölçülebilir bir doğruluk kaybı olmadan. H100’lerde dikkat (attention) hesaplamasını 4…

Devamını Oku: Google TurboQuant: LLM Belleği 6 Kat, Hız 8 Kata Kadar
Kaynak: Techolay