Uzun zamandır yerel (local) yapay zeka dil modellerini takip ediyorum. Yerelde çok çeşitli modeller yükledim; Ollama, Docker ve WebUI üçlüsünü kullanıyorum. Ek olarak da OpenCode'da ücretsiz modelleri test ediyorum. Hem WebUI hem de OpenCode'da MCP'lerim var. Web tarama, dosya okuma, RAG sistemi gibi özellikler için de ek embed modellerim kurulu.
Çok büyük modeller de yükledim, tabii VRAM'den taşanlar oluyor ama sığan modeller ağırlıklı olarak kurulu. Qwen modelleri çok var, Gemma 4 var. Çeşitli quantization (sıkıştırma) modellerini denedim. Üzerinde bayağı zaman ayırdığım için bu konuda az çok bilgim oluştu:
4-bit: Orta halli ama çok memnun kalmıyorsunuz. Daha altına inilmesini kesinlikle önermem. Minimum 5-bit quant olmalı.
Qwen 128B: 6-bit sanırım, sistemimde yavaş çalışıyor.
Minimax M2.7: 4-bit versiyonu yaklaşık 7 t/s veriyor. Süper değil, HTML'de oyun yaptırdım, 2-3 satır kodda hata yaptı. O yüzden 5-bit düşünüyorum.
Mistral Medium 3.5: 0.75 t/s alıyorum, aşırı yavaş. Belki ileride 2. ekran kartını alabilirsem bir miktar hızlanır.
Bunun dışında OpenCode'da Xiaomi'nin Mimo V2.5 free modeli var (bir de pro sürümü var). Normal olanı kullandım. Bilen bilir, OpenCode'da free modellerin kullanım süresi çok uzun oluyor. Bayağı test ettim ve inanılmaz bir model; halüsinasyon yok, performansı Claude kadar iyi. Zaten PC erişimi vermiştim; bütün hataları çözdü, düzeltti, kendi kendine pencereler açtı, ayarları yaptı. 2. kartı aldığımda kurmayı düşünüyorum.
Peki, siz yerelde hangi modelleri kullanıyorsunuz? Özellikle memnun olduğunuz ve önereceğiniz modeller var mı?