Local LLM olarak hangi modeli kullanıyorsunuz?

Utku92 · Dün 23:30

Uzun zamandır yerel (local) yapay zeka dil modellerini takip ediyorum. Yerelde çok çeşitli modeller yükledim; Ollama, Docker ve WebUI üçlüsünü kullanıyorum. Ek olarak da OpenCode'da ücretsiz modelleri test ediyorum. Hem WebUI hem de OpenCode'da MCP'lerim var. Web tarama, dosya okuma, RAG sistemi gibi özellikler için de ek embed modellerim kurulu.

Çok büyük modeller de yükledim, tabii VRAM'den taşanlar oluyor ama sığan modeller ağırlıklı olarak kurulu. Qwen modelleri çok var, Gemma 4 var. Çeşitli quantization (sıkıştırma) modellerini denedim. Üzerinde bayağı zaman ayırdığım için bu konuda az çok bilgim oluştu:

4-bit: Orta halli ama çok memnun kalmıyorsunuz. Daha altına inilmesini kesinlikle önermem. Minimum 5-bit quant olmalı.
Qwen 128B: 6-bit sanırım, sistemimde yavaş çalışıyor.
Minimax M2.7: 4-bit versiyonu yaklaşık 7 t/s veriyor. Süper değil, HTML'de oyun yaptırdım, 2-3 satır kodda hata yaptı. O yüzden 5-bit düşünüyorum.
Mistral Medium 3.5: 0.75 t/s alıyorum, aşırı yavaş. Belki ileride 2. ekran kartını alabilirsem bir miktar hızlanır.

Bunun dışında OpenCode'da Xiaomi'nin Mimo V2.5 free modeli var (bir de pro sürümü var). Normal olanı kullandım. Bilen bilir, OpenCode'da free modellerin kullanım süresi çok uzun oluyor. Bayağı test ettim ve inanılmaz bir model; halüsinasyon yok, performansı Claude kadar iyi. Zaten PC erişimi vermiştim; bütün hataları çözdü, düzeltti, kendi kendine pencereler açtı, ayarları yaptı. 2. kartı aldığımda kurmayı düşünüyorum.

Peki, siz yerelde hangi modelleri kullanıyorsunuz? Özellikle memnun olduğunuz ve önereceğiniz modeller var mı?

Hasan Merkit · Dün 23:40

Qwen Coder Next. Ama çok fazla kaynak yemekle beraber çok saçmalıyor. Kendisini bir şekilde geliştirmeye çalışacağım.

Utku92 · Dün 23:42

Hasan Merkit dedi:
Qwen Coder Next. Ama çok fazla kaynak yemekle beraber çok saçmalıyor. Kendisini bir şekilde geliştirmeye çalışacağım.

8 bit olarak var bende ama çok iyi değil.

MR Hubu · Bugün 00:28

Qwen 35b modeli kullanıyorum iyi çalışıyor tabii RAM ve VRAM bayağı kullanıyor.

Utku92 · Bugün 00:29

MR Hubu dedi:
Qwen 35b modeli kullanıyorum iyi çalışıyor tabii RAM ve VRAM bayağı kullanıyor.

Kaç bit?

MR Hubu · Bugün 00:41

Utku92 dedi:
Kaç bit?

Bilmiyorum yarın bakarım.

Utku92 · Bugün 00:43

MR Hubu dedi:
Bilmiyorum yarın bakarım.

Ben de 4 bit var ama çok iyi değil, VRAM sığıyor. Ancak web araması kısmında iyi çalışmıyor.

MR Hubu · Bugün 00:47

Utku92 dedi:
Ben de 4 bit var ama çok iyi değil, VRAM sığıyor. Ancak web araması kısmında iyi çalışmıyor.

Qwen web aramada biraz şaçmalıyor dediklerimi yapıyor o iyi web eh.

madelyn · Bugün 00:49

Qwen 3.5 9b Q4 kullanıyordum, yerelde fakülte özelinde bir RAG sistemi çalıştırırken kullanıyordum. Epeydir elimi sürmedim bu işlere. Şuan Gemma 4 12b, Qwen 2.5 7b falan da yüklü.

Model eğitmek istiyorum ama Q4 hali bile 7.8gb kaplayan modellerin safetensors hallerini 8 GB Vram ile işleyemiyorum.

Yerel modeller ile hiç MCP, agent tarzı işlere giremedim. 4060 yetmiyor nedense, ya da optimizasyonlarını bilmiyorum.

Local LLM olarak hangi modeli kullanıyorsunuz?

Detaylar

Utku92

Üstün

Hasan Merkit

Moderasyon Üyesi

Utku92

Üstün

MR Hubu

Becerikli

Utku92

Üstün

MR Hubu

Becerikli

Utku92

Üstün

MR Hubu

Becerikli

madelyn

Üstün

Benzer konular

Local LLM olarak hangi modeli kullanıyorsunuz?

Üstün

Moderasyon Üyesi

Üstün

Becerikli

Üstün

Becerikli

Üstün

Becerikli

Üstün

Benzer konular

Privacy & Transparency

Privacy & Transparency