Arkadaşlar Ollama ile yerel LLM kullanıyorsanız genelde kendi sitesindeki modelleri kullanırsınız veya kullanıyorsunuzdur. Fakat buradaki modeller tek quantization sıkıştırma boyutunda olur.
Üstteki resimde de gördüğünüz üzere Q4_k_m olarak quantization sıkıştırması yapılmış ancak başka seçenekler yoktur. Örneğin Q3 gibi. (Q4: 4 bittir, Q3: 3 bittir ve benim önerim 4 bitin altına düşmemeniz gerektiğidir yaptığım testlere göre.) Buradaki olay şu mesela bu model görünürde 24 GB olduğu için mantıken 24 GB'a sığar zannediliyor ama öyle değil. Bu model context ayarlarıyla 24 GB VRAM'i geçiyor. Bundan dolayı da VRAM'e sığmayacaktır (VRAM'e sığmayan modeller az token üretir ve hantal çalışır.). Bu durumdan dolayı da hugging faceden model bakmak durumunda kalıyoruz.
Şimdi gelelim Hugging Face'e. Siteye üye oluyoruz ilk yapacağımız iş. Çünkü üye olunduğunda donanım girilecek kısım var.
Buradan ekran kartı ve işlemci ayarını yapıyoruz.
Sonrasında, indirmek istediğimiz modeli aratıyoruz.
Burada oturum açtığımız ve donanım özelliklerini girdiğimiz için sağ kısımda quantizations indirme seçenekleri ve sıkıştırmalar gözüküyor. Ben 4 bitten düşük olanı tercih etmediğimden size de belirtmiştim nedenini. Özel sıkıştırma olan UD-IQ4: XS seçiyorum. 24 GB VRAM olsa dahi uzun context ayarlamak istediğimden bunu seçiyorum. Ollama'yı kurduğunuzu varsayıyorum. Bazı kodlar var onları da açıklayacağım.
Buradan use this model tıklıyoruz ve.
Ollamayı seçiyoruz.
Bu modeli seçtiğim için terminale yapıştırıyoruz.
İnmeye başlayacak ve hata verecek arkadaşlar. Sakın korkmayın o kısmı da anlatacağım. Yarım kalan veya iptal ettiğiniz dosyaları da konumuna gelip silebilirsiniz. Partial yazanlar yarım kalan inmemiş dosyalar oluyor seçip silebilrisiniz.
Bu şekilde mesela internetiniz kesilir model inmez birikme olmasın diye silebilirsiniz. Her neyse indirme tamamlandığında hata verecek model. Çünkü indirme bitince ollama otomatik terminalde modeli çalıştırmaya başlar sebebi budur.
Bu rehber için küçük bir dil modeli indirip sizinle birlikte baştan tek tek hatayı ve ayarları yapmayı göstereceğim.
Arkadaşlar sorun şu ki bu problem modeldeki vision kısmının yani mmproj ekinin çalışmamasından kaynaklıdır. Çünkü ollama tek bir modelden etkinleştiriyor modeli. Kendi sitesindeki vision destekli dil modelleri tek dosya olduğu için çalışması bundan dolayıdır.
Ve modelimiz indiyse eğer böyle bir hata ile gelecektir:
Merak etmeyin indirmede sorun yok sadece vision kısmından dolayı modeli çalıştıramadı. Terminali kapatalım sonraki işlemleri anlatacağım. Şimdi ollamanın özel kodlarına bakalım.
"Ollama list"
Modeller listelenir ben bu komutu çok kullanırım buradaki model isimlerini kolayca kopyalayıp bazı işlemler yapmak için. Gördüğünüz üzere yeni indirdiğim model de orada duruyor.
"Ollama rm"
Modeli silmeye yarar. Örneğin: "ollama rm gemma4:31b" yazarsanız model silinir. Modelin tam adı yazılması gerekir.
"Ollama PS"
Modelin veya ayarlanmış modelin çalıştıktan sonraki ekran kartında kapladığı VRAM ve RAM miktarını gösterir.
"Ollama show"
Modelin genel özelliklerini ve maksimum desteklediği context miktarını yazar. Örneğin: "ollama show gemma4:31b" gibi.
"Ollama show <model_adi> --modelfile > Modelfile.txt"
Bu kısım da modelin modelfile dosyasını çıkartır. Yapılandırma ayar dosyasıdır. Sonrasında burada çeşitli parametre ve ayarlar verilir.
"Ollama create <model_adi> -f Modelfile.txt"
Ayarlanan modelfile dosyası bu kod ile modele aktarılır.
Daha fazla kodlar da var ama bu kadarı yeterli oluyor.
Şimdi fatal error veren modeli yapılandırıp çalışır hale getirelim.
1. aşama.
Terminali açıp ollama list diyoruz ki modelleri görelim.
Modelimiz çalışmadığı için ayar yapmamız gerekiyor. Önce ollama show diyerek özelliklerine bakalım.
Context uzunluğumuz maksimum 131072'ye kadarmış. Benim sistemde bu uzunluğu kaldırabilecek donanım olduğu için maksimum context girebilirim.
Aşama 2:
Şimdi de modelfile dosyamızı çağırmamız lazım nereye çağırmak istiyorsanız oranın dosya konumunu giriyorsunuz.
Terminale geliyoruz ben masaüstünde oluşturmak istediğimden dolayı.
"CD C:\Users\Utku\Desktop" enter basıyorum.
Ardından masaüstünde txt dosyası oluşacak.
Buradaki bozuk kısım 2. satırdaki from kıs mıdır? O kısım vision olan bölümdür. Şöyle bir işlem yapıyoruz # koyuyoruz. Kodlama bilenler o satırı yoruma dönüştürüyor model yüklendiğinde siliniyor.
Son olarak da bazı parametreleri giriyoruz model ayarı yapıyoruz.
Bazı parametreler:
Parameter temperature 1 # modelin sıcaklık ayarı.
Parameter top_k 64 # mantıksal kelime ayarı "bu kısımları ben model ayarına göre ayarlıyorum."
Parameter top_p 0.95 # çekirdek örnekleme "bu kısımları ben model ayarına göre ayarlıyorum."
Parameter num_ctx 16000 # context ayarı "sisteminize göre değişen ayar"
Parameter num_gpu 99 # GPU için verilen güç "sisteminize göre değişen ayar"
Parameter num_thread 16 # işlemci için verilen thread "sisteminize göre değişen ayar"
Şimdi ben Context'i tam gireceğim çünkü donanımım rahat kaldırıyor.
Bitiriyorum ve ayarları aktaracağım. Masaüstü için yazdığımız terminal açıksa direk oradan gösterip ayarları gönderebiliriz.
Bu şekilde yaptığımız ayarlar aktarılmış oluyor.
Şimdi bakalım modelimiz çalışacak mı?
"Merhaba" dedik ve çalıştığını gözlemledik. Ancak bana bir tık yavaş geldi sanki token az üretiliyordu. Peki bu durumda ne yapyoruz? Tabii ki kontrol ediyoruz VRAM taşması var mı diye.
Yeni terminal açıp:
"Ollama PS"
Görüldüğü üzere maksimum 5.2 GB VRAM kaplamış yani taşma yok. Bazı durumlarda GPU num değerini az verdiğinizde Processor kısmı GPU + RAM olarak kalabiliyor bunu istemeyiz. 99 değerini görmezse hata verirse 70 gibi değeri düşürün. Veya context fazla gelebilir RAM'e taşabilir bunu da istemeyiz context kısmı düşürülür. Ben web UI bağladım ollamayı o şekilde kullanıyorum. Hatta openclaw da var ollamaya bağlı. Ancak bunlar başka konular daha fazla uzatmak istemediğim için ekleme yapmadım.
Rehber genel olarak bu kadardı. Şimdi bilgilendirme kısmına geçelim.
Bilgilendirme*
Ollama kullanmak isteyen arkadaşlar. Bildiğiniz üzere veya belki bilmiyorsunuz lm Studio ve Ollama'nın esas altyapısı llama. Ccpdir. Daha ilkeldir ama günceldir de. Ollamadaki gibi modelfile dosya çekip ayarı tekrar gönderme gibi bir özelliği yoktur. Terminale kod ile bütün ayarlar yazılarak onun da web UI var o şekilde model kullanılır. Llama. Ccp de vision sorunu yoktur çünkü günceldir ancak ollama güncel olmadığı için eski yapıdaki hatalar vardır. Yani hugging facedeki modelleri kullanacaksanız vision kısmını çıkarmanız gerekiyor. Henüz güncelleme getirmediler onun düzeltme güncellemesini bekliyoruz. Düzeltme yapıldığında mmproj indirip siz 2. from ekleyerek atar veya from hf.co/unsloth/gemma-4-E2B-it-GGUF:UD-IQ2_M gibi ana model adı yazıp modelfile kaydedip terminalde çalıştırınca düzeltip çekecektir.
Gıthub hata sayfası
github.com
Üstteki resimde de gördüğünüz üzere Q4_k_m olarak quantization sıkıştırması yapılmış ancak başka seçenekler yoktur. Örneğin Q3 gibi. (Q4: 4 bittir, Q3: 3 bittir ve benim önerim 4 bitin altına düşmemeniz gerektiğidir yaptığım testlere göre.) Buradaki olay şu mesela bu model görünürde 24 GB olduğu için mantıken 24 GB'a sığar zannediliyor ama öyle değil. Bu model context ayarlarıyla 24 GB VRAM'i geçiyor. Bundan dolayı da VRAM'e sığmayacaktır (VRAM'e sığmayan modeller az token üretir ve hantal çalışır.). Bu durumdan dolayı da hugging faceden model bakmak durumunda kalıyoruz.
Şimdi gelelim Hugging Face'e. Siteye üye oluyoruz ilk yapacağımız iş. Çünkü üye olunduğunda donanım girilecek kısım var.
Buradan ekran kartı ve işlemci ayarını yapıyoruz.
Sonrasında, indirmek istediğimiz modeli aratıyoruz.
Burada oturum açtığımız ve donanım özelliklerini girdiğimiz için sağ kısımda quantizations indirme seçenekleri ve sıkıştırmalar gözüküyor. Ben 4 bitten düşük olanı tercih etmediğimden size de belirtmiştim nedenini. Özel sıkıştırma olan UD-IQ4: XS seçiyorum. 24 GB VRAM olsa dahi uzun context ayarlamak istediğimden bunu seçiyorum. Ollama'yı kurduğunuzu varsayıyorum. Bazı kodlar var onları da açıklayacağım.
Buradan use this model tıklıyoruz ve.
Ollamayı seçiyoruz.
Bu modeli seçtiğim için terminale yapıştırıyoruz.
İnmeye başlayacak ve hata verecek arkadaşlar. Sakın korkmayın o kısmı da anlatacağım. Yarım kalan veya iptal ettiğiniz dosyaları da konumuna gelip silebilirsiniz. Partial yazanlar yarım kalan inmemiş dosyalar oluyor seçip silebilrisiniz.
Bu şekilde mesela internetiniz kesilir model inmez birikme olmasın diye silebilirsiniz. Her neyse indirme tamamlandığında hata verecek model. Çünkü indirme bitince ollama otomatik terminalde modeli çalıştırmaya başlar sebebi budur.
Bu rehber için küçük bir dil modeli indirip sizinle birlikte baştan tek tek hatayı ve ayarları yapmayı göstereceğim.
Arkadaşlar sorun şu ki bu problem modeldeki vision kısmının yani mmproj ekinin çalışmamasından kaynaklıdır. Çünkü ollama tek bir modelden etkinleştiriyor modeli. Kendi sitesindeki vision destekli dil modelleri tek dosya olduğu için çalışması bundan dolayıdır.
Ve modelimiz indiyse eğer böyle bir hata ile gelecektir:
Merak etmeyin indirmede sorun yok sadece vision kısmından dolayı modeli çalıştıramadı. Terminali kapatalım sonraki işlemleri anlatacağım. Şimdi ollamanın özel kodlarına bakalım.
"Ollama list"
Modeller listelenir ben bu komutu çok kullanırım buradaki model isimlerini kolayca kopyalayıp bazı işlemler yapmak için. Gördüğünüz üzere yeni indirdiğim model de orada duruyor.
"Ollama rm"
Modeli silmeye yarar. Örneğin: "ollama rm gemma4:31b" yazarsanız model silinir. Modelin tam adı yazılması gerekir.
"Ollama PS"
Modelin veya ayarlanmış modelin çalıştıktan sonraki ekran kartında kapladığı VRAM ve RAM miktarını gösterir.
"Ollama show"
Modelin genel özelliklerini ve maksimum desteklediği context miktarını yazar. Örneğin: "ollama show gemma4:31b" gibi.
"Ollama show <model_adi> --modelfile > Modelfile.txt"
Bu kısım da modelin modelfile dosyasını çıkartır. Yapılandırma ayar dosyasıdır. Sonrasında burada çeşitli parametre ve ayarlar verilir.
"Ollama create <model_adi> -f Modelfile.txt"
Ayarlanan modelfile dosyası bu kod ile modele aktarılır.
Daha fazla kodlar da var ama bu kadarı yeterli oluyor.
Şimdi fatal error veren modeli yapılandırıp çalışır hale getirelim.
1. aşama.
Terminali açıp ollama list diyoruz ki modelleri görelim.
Modelimiz çalışmadığı için ayar yapmamız gerekiyor. Önce ollama show diyerek özelliklerine bakalım.
Context uzunluğumuz maksimum 131072'ye kadarmış. Benim sistemde bu uzunluğu kaldırabilecek donanım olduğu için maksimum context girebilirim.
Aşama 2:
Şimdi de modelfile dosyamızı çağırmamız lazım nereye çağırmak istiyorsanız oranın dosya konumunu giriyorsunuz.
Terminale geliyoruz ben masaüstünde oluşturmak istediğimden dolayı.
"CD C:\Users\Utku\Desktop" enter basıyorum.
Ardından masaüstünde txt dosyası oluşacak.
Buradaki bozuk kısım 2. satırdaki from kıs mıdır? O kısım vision olan bölümdür. Şöyle bir işlem yapıyoruz # koyuyoruz. Kodlama bilenler o satırı yoruma dönüştürüyor model yüklendiğinde siliniyor.
Son olarak da bazı parametreleri giriyoruz model ayarı yapıyoruz.
Bazı parametreler:
Parameter temperature 1 # modelin sıcaklık ayarı.
Parameter top_k 64 # mantıksal kelime ayarı "bu kısımları ben model ayarına göre ayarlıyorum."
Parameter top_p 0.95 # çekirdek örnekleme "bu kısımları ben model ayarına göre ayarlıyorum."
Parameter num_ctx 16000 # context ayarı "sisteminize göre değişen ayar"
Parameter num_gpu 99 # GPU için verilen güç "sisteminize göre değişen ayar"
Parameter num_thread 16 # işlemci için verilen thread "sisteminize göre değişen ayar"
Şimdi ben Context'i tam gireceğim çünkü donanımım rahat kaldırıyor.
Bitiriyorum ve ayarları aktaracağım. Masaüstü için yazdığımız terminal açıksa direk oradan gösterip ayarları gönderebiliriz.
Bu şekilde yaptığımız ayarlar aktarılmış oluyor.
Şimdi bakalım modelimiz çalışacak mı?
"Merhaba" dedik ve çalıştığını gözlemledik. Ancak bana bir tık yavaş geldi sanki token az üretiliyordu. Peki bu durumda ne yapyoruz? Tabii ki kontrol ediyoruz VRAM taşması var mı diye.
Yeni terminal açıp:
"Ollama PS"
Görüldüğü üzere maksimum 5.2 GB VRAM kaplamış yani taşma yok. Bazı durumlarda GPU num değerini az verdiğinizde Processor kısmı GPU + RAM olarak kalabiliyor bunu istemeyiz. 99 değerini görmezse hata verirse 70 gibi değeri düşürün. Veya context fazla gelebilir RAM'e taşabilir bunu da istemeyiz context kısmı düşürülür. Ben web UI bağladım ollamayı o şekilde kullanıyorum. Hatta openclaw da var ollamaya bağlı. Ancak bunlar başka konular daha fazla uzatmak istemediğim için ekleme yapmadım.
Rehber genel olarak bu kadardı. Şimdi bilgilendirme kısmına geçelim.
Bilgilendirme*
Ollama kullanmak isteyen arkadaşlar. Bildiğiniz üzere veya belki bilmiyorsunuz lm Studio ve Ollama'nın esas altyapısı llama. Ccpdir. Daha ilkeldir ama günceldir de. Ollamadaki gibi modelfile dosya çekip ayarı tekrar gönderme gibi bir özelliği yoktur. Terminale kod ile bütün ayarlar yazılarak onun da web UI var o şekilde model kullanılır. Llama. Ccp de vision sorunu yoktur çünkü günceldir ancak ollama güncel olmadığı için eski yapıdaki hatalar vardır. Yani hugging facedeki modelleri kullanacaksanız vision kısmını çıkarmanız gerekiyor. Henüz güncelleme getirmediler onun düzeltme güncellemesini bekliyoruz. Düzeltme yapıldığında mmproj indirip siz 2. from ekleyerek atar veya from hf.co/unsloth/gemma-4-E2B-it-GGUF:UD-IQ2_M gibi ana model adı yazıp modelfile kaydedip terminalde çalıştırınca düzeltip çekecektir.
Gıthub hata sayfası
qwen 3.5 models from HuggingFace don't work · Issue #14575 · ollama/ollama
What is the issue? I tried using hf.co/bartowski/Qwen_Qwen3.5-9B-GGUF:Q4_K_M and hf.co/unsloth/Qwen3.5-9B-GGUF:Q6_K, but both give "Error: 500 Internal Server Error: unable to load model". server.l...