Local LLM olarak hangi modeli kullanıyorsunuz?

Utku92

Üstün
Katılım
8 Şubat 2024
Mesajlar
2.842
Makaleler
1
Çözümler
8
Beğeniler
1.654
Uzun zamandır yerel (local) yapay zeka dil modellerini takip ediyorum. Yerelde çok çeşitli modeller yükledim; Ollama, Docker ve WebUI üçlüsünü kullanıyorum. Ek olarak da OpenCode'da ücretsiz modelleri test ediyorum. Hem WebUI hem de OpenCode'da MCP'lerim var. Web tarama, dosya okuma, RAG sistemi gibi özellikler için de ek embed modellerim kurulu.

Çok büyük modeller de yükledim, tabii VRAM'den taşanlar oluyor ama sığan modeller ağırlıklı olarak kurulu. Qwen modelleri çok var, Gemma 4 var. Çeşitli quantization (sıkıştırma) modellerini denedim. Üzerinde bayağı zaman ayırdığım için bu konuda az çok bilgim oluştu:
  • 4-bit: Orta halli ama çok memnun kalmıyorsunuz. Daha altına inilmesini kesinlikle önermem. Minimum 5-bit quant olmalı.
  • Qwen 128B: 6-bit sanırım, sistemimde yavaş çalışıyor.
  • Minimax M2.7: 4-bit versiyonu yaklaşık 7 t/s veriyor. Süper değil, HTML'de oyun yaptırdım, 2-3 satır kodda hata yaptı. O yüzden 5-bit düşünüyorum.
  • Mistral Medium 3.5: 0.75 t/s alıyorum, aşırı yavaş. Belki ileride 2. ekran kartını alabilirsem bir miktar hızlanır.
Bunun dışında OpenCode'da Xiaomi'nin Mimo V2.5 free modeli var (bir de pro sürümü var). Normal olanı kullandım. Bilen bilir, OpenCode'da free modellerin kullanım süresi çok uzun oluyor. Bayağı test ettim ve inanılmaz bir model; halüsinasyon yok, performansı Claude kadar iyi. Zaten PC erişimi vermiştim; bütün hataları çözdü, düzeltti, kendi kendine pencereler açtı, ayarları yaptı. 2. kartı aldığımda kurmayı düşünüyorum.

Peki, siz yerelde hangi modelleri kullanıyorsunuz? Özellikle memnun olduğunuz ve önereceğiniz modeller var mı?
 
Qwen Coder Next. Ama çok fazla kaynak yemekle beraber çok saçmalıyor. Kendisini bir şekilde geliştirmeye çalışacağım.
 
Qwen 35b modeli kullanıyorum iyi çalışıyor tabii RAM ve VRAM bayağı kullanıyor.
 
Qwen 3.5 9b Q4 kullanıyordum, yerelde fakülte özelinde bir RAG sistemi çalıştırırken kullanıyordum. Epeydir elimi sürmedim bu işlere. Şuan Gemma 4 12b, Qwen 2.5 7b falan da yüklü.

Model eğitmek istiyorum ama Q4 hali bile 7.8gb kaplayan modellerin safetensors hallerini 8 GB Vram ile işleyemiyorum.

Yerel modeller ile hiç MCP, agent tarzı işlere giremedim. 4060 yetmiyor nedense, ya da optimizasyonlarını bilmiyorum.
 
Bu siteyi kullanmak için çerezler gereklidir. Siteyi kullanmaya devam etmek için çerezleri kabul etmelisiniz. Daha Fazlasını Öğren.…