Utku92
Üstün
- Katılım
- 8 Şubat 2024
- Mesajlar
- 2.842
- Makaleler
- 1
- Çözümler
- 8
- Beğeniler
- 1.654
Uzun zamandır yerel (local) yapay zeka dil modellerini takip ediyorum. Yerelde çok çeşitli modeller yükledim; Ollama, Docker ve WebUI üçlüsünü kullanıyorum. Ek olarak da OpenCode'da ücretsiz modelleri test ediyorum. Hem WebUI hem de OpenCode'da MCP'lerim var. Web tarama, dosya okuma, RAG sistemi gibi özellikler için de ek embed modellerim kurulu.
Çok büyük modeller de yükledim, tabii VRAM'den taşanlar oluyor ama sığan modeller ağırlıklı olarak kurulu. Qwen modelleri çok var, Gemma 4 var. Çeşitli quantization (sıkıştırma) modellerini denedim. Üzerinde bayağı zaman ayırdığım için bu konuda az çok bilgim oluştu:
Peki, siz yerelde hangi modelleri kullanıyorsunuz? Özellikle memnun olduğunuz ve önereceğiniz modeller var mı?
Çok büyük modeller de yükledim, tabii VRAM'den taşanlar oluyor ama sığan modeller ağırlıklı olarak kurulu. Qwen modelleri çok var, Gemma 4 var. Çeşitli quantization (sıkıştırma) modellerini denedim. Üzerinde bayağı zaman ayırdığım için bu konuda az çok bilgim oluştu:
- 4-bit: Orta halli ama çok memnun kalmıyorsunuz. Daha altına inilmesini kesinlikle önermem. Minimum 5-bit quant olmalı.
- Qwen 128B: 6-bit sanırım, sistemimde yavaş çalışıyor.
- Minimax M2.7: 4-bit versiyonu yaklaşık 7 t/s veriyor. Süper değil, HTML'de oyun yaptırdım, 2-3 satır kodda hata yaptı. O yüzden 5-bit düşünüyorum.
- Mistral Medium 3.5: 0.75 t/s alıyorum, aşırı yavaş. Belki ileride 2. ekran kartını alabilirsem bir miktar hızlanır.
Peki, siz yerelde hangi modelleri kullanıyorsunuz? Özellikle memnun olduğunuz ve önereceğiniz modeller var mı?