Rehber Fedora Homebrew ve llmfit Kurulumu

Fedora üzerinde donanımınızın (VRAM/RAM) hangi LLM modeline "fit" olacağını hızlıca kontrol etmek için Homebrew ve llmfit kurulumunu bu rehberle saniyeler içinde yapabilirsiniz.

1. Adım: Gerekli Bağımlılıkları Yükleyin​

Homebrew'un Fedora üzerinde sorunsuz çalışması için temel geliştirici araçlarını kuruyoruz:
Bash:
sudo dnf install procps-ng curl file git

2. Adım: Homebrew Kurulumu​

Aşağıdaki komutla resmi kurulum betiğini çalıştırın:
Bash:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

3. Adım: PATH Ayarlarını Yapılandırın​

Brew komutunun terminalde tanınması için kalıcı ayarları ekliyoruz. Bu bloğu tek seferde kopyalayıp çalıştırabilirsiniz:
Bash:
eval "$(/home/linuxbrew/.linuxbrew/bin/brew shellenv)"
echo 'eval "$(/home/linuxbrew/.linuxbrew/bin/brew shellenv)"' >> ~/.bashrc
Not: Zsh kullanıyorsanız ~/.bashrc yerine ~/.zshrc yazın.

4. Adım: llmfit Kurulumu​

Aracı artık tek komutla yükleyebilirsiniz:

Bash:
brew install llmfit

5. Adım: Test ve Kullanım​

Kurulumun başarılı olduğunu doğrulamak için:
Bash:
llmfit --version

Aracı çalıştırmak için:

Bash:
llmfit

 
Biraz gereksiz olmuş bence. VRAM'ınızın tamamı ve RAM'ınızın yarısı kadar bir boyutu kendinize ayırın. Sizin durumunuzda 16 GB + 24 GB'dan 40 GB oluyor. LLM modelinin boyutu, 40 GB'dan 10-20% az olana kadar olan modelleri seçebilirsiniz.

Biraz daha zorlarım derseniz RAM'da sisteme yetecek kadar mesela 8 GB RAM bırakabilirsiniz. Ancak bağlam penceresi ve Local AI'yı toollarla kullanacağınızı var sayarsak 8 GB yerine VRAM + RAM'ın yarısı olarak ayarlamak daha efektif olacaktır.
 

Token ne oluyor peki hocam? Bende 128 GB RAM var. Ama RTX 3090'ın 24 GB RAM'ini kullanıyorum. VRAM'e sığmayan modeller aşırı yavaş çalışıyor ve token düşüyor. Veri yolu hızı düşük çünkü. Yoksa dev modeller de atardım. Ollama kullanıyorum model ayarlarını da yapıyorum context ayarlarken bile bütün ayarlar toplamdaki VRAM'i aşmaması gerekiyor.
 
MoE modelleri kullanın bir de GPU Layers'i maksimuma çekin, çok faydasını görürsünüz. GPU Layers'i maksimuma çekince GPU + CPU yerine GPU + RAM Swap olarak kullanır. GPU layers'i maksimuma çekerseniz zaten transparan olarak RAM'ınızı kullanacaktır.
 

Ben RAM'e sarktırmadan ayarları yapıyorum. Context de sığacak şekilde çünkü daha hızlı oluyor. Ollama kullanıyorum. Şimdi rehber hazırlıyorum uzunca.
 
Ben RAM'e sarktırmadan ayarları yapıyorum. Context de sığacak şekilde çünkü daha hızlı oluyor. Ollama kullanıyorum. Şimdi rehber hazırlıyorum uzunca.
CPU'nun işlemesiyle GPU'nun RAM'a swap yapması ayrı bir durum. RAM'a swap yapınca hız o kadar düşmüyor. GPU Layer'i maksimuma almayı deneyin.
 
CPU'nun işlemesiyle GPU'nun RAM'a swap yapması ayrı bir durum. RAM'a swap yapınca hız o kadar düşmüyor. GPU Layer'i maksimuma almayı deneyin.

Maksimumda kullanıyorum ancak sadece VRAM ve GPU'daki performansı alamıyorum.
 
3 katına çıkan modelden 3 kat performans mı bekliyorsun? VRAM'dan bağımsız olarak Token/sn düşecek tabii ki.

24 GB VRAM var bende ama 16 17 olan gguf model seçerek context uzun tutuyorum. Rehber yaptım birazdan yayınlanır.
 
Bu siteyi kullanmak için çerezler gereklidir. Siteyi kullanmaya devam etmek için çerezleri kabul etmelisiniz. Daha Fazlasını Öğren.…