Google Research, TurboQuant adını verdiği yeni sıkıştırma tekniğini 24 Mart 2026’da duyurdu. Amaç basit: büyük dil modellerinin (LLM) en büyük bellek yükü olan KV önbelleğini küçültmek. Google’ın paylaştığı sonuçlara göre TurboQuant, KV önbelleğini 3 bite kadar nicemleyip en az 6 kat bellek tasarrufu sağlıyor; üstelik ölçülebilir bir doğruluk kaybı olmadan. H100’lerde dikkat (attention) hesaplamasını 4 bit modunda 8 kata kadar hızlandıran ölçümler de paylaşıldı.
Neden önemli?
Uzun sohbetler ya da geniş bağlam pencereleri, her yeni token’la büyüyen KV önbelleğini şişiriyor. Bu, GPU belleği ve enerji tüketimi üzerinde ciddi baskı oluşturuyor. TurboQuant, bu darboğazı küçülterek aynı donanımda daha uzun bağlam, daha yüksek eşzamanlılık ya da daha düşük maliyet seçenekleri açıyor. Google, yöntemin eğitim veya ince ayar gerektirmediğini ve çalışma zamanında ek yükünün ihmal edilebilir düzeyde olduğunu vurguluyor.
TurboQuant nasıl çalışıyor?
- PolarQuant ile yüksek kaliteli sıkıştırma: Vektörler önce rastgele döndürülüyor; ardından kutupsal dönüşümle (yarıçap + açı) ifade edilip standart bir nicemleyiciyle düşük bite indiriliyor. Bu yaklaşım, klasik yöntemlerdeki kod kitapçığı/normalizasyon “fazla yükünü” ortadan kaldırıyor.
- QJL ile 1 bitlik artık düzeltme: İlk aşamadan kalan küçük hataya 1 bitlik Quantized Johnson–Lindenstrauss katmanı uygulanıyor. Böylece iç çarpım (attention skoru) yanlılığı gideriliyor ve doğruluk korunuyor.
Google’ın paylaştığı deneylerde Gemma ve Mistral gibi açık modeller üzerinde LongBench, Needle In A Haystack, ZeroSCROLLS, RULER ve L‑Eval gibi uzun bağlam testleri kullanıldı. Sonuçlar, KV belleğinin en az 6 kat küçültülmesine rağmen görev performansının korunduğunu gösteriyor. “4 bit TurboQuant”la H100 GPU’larında dikkat logit hesaplamasında 8 kata kadar hız artışı raporlanmış durumda. Çalışma, ICLR 2026’da sunulacak.
Yöntem yalnızca LLM tarafına değil, vektör aramasına da yarıyor. Ürün Nicemleme (PQ) ve RabbiQ gibi yaklaşımlara karşı yapılan testlerde TurboQuant’ın hatırlama oranlarında üstünlük sağlarken indeksleme süresini neredeyse sıfıra indirdiği aktarılıyor. Bu da büyük vektör veritabanlarında çok daha hızlı kurulum ve sorgu verimliliği anlamına geliyor.
Özetle: TurboQuant, KV önbelleğini “maliyetsiz” küçültmeye odaklanarak LLM çıkarımı ve vektör aramasında ciddi verimlilik artışı sunuyor. Bu ölçek ve şeffaflıkta bir kazanım, üretim ortamlarında daha uzun bağlamlar, daha küçük GPU ayak izi ve daha düşük işletim maliyeti için güçlü bir kaldıraç olabilir.
Kaynak: www.techspot.com
