Konu Başlıkları Gizle
Açık kaynaklı ve tamamen yerel (çevrimdışı) çalışan sesli dikte aracı OpenWhispr, özellikle güçlü donanımlarda muazzam işler başarıyor.
Bu rehberde OpenWhispr'ı nasıl kuracağımızı ve Wayland altındaki
STT (Speech-to-Text) işlemlerini işlemci yerine doğrudan ekran kartına yıkmak için standart sürüm yerine Vulkan destekli sürümü kurmamız gerekiyor. Bu sayede en ağır Whisper modellerini bile anında metne dökebiliriz.
Terminali açıp AUR üzerinden kurulumu başlatıyoruz:
*(Eğer
Wayland'in güvenlik modeli gereği, bir uygulamanın başka bir pencereye (tarayıcı, editör vb.) doğrudan tuş vuruşu göndermesi kısıtlanmıştır. OpenWhispr'ın dikte ettiğiniz metni imlecinizin olduğu yere anında yazabilmesi için
Resmi depolardan paketi kuruyoruz:
Kullanıcımızı
Ydotool Arka Plan Hizmetinin (Daemon) Başlatılması
Arch tabanlı sistemlerde
Sistemi Yeniden Başlatma
Yaptığımız grup yetkilendirmesinin (
1. Sağ üstten veya menüden Ayarlar kısmına girin.
2. STT / Model ayarlarına gelerek GPU hızlandırmasının / Vulkan backend'inin seçili olduğundan emin olun.
3. Uygun bir Whisper modelini indirin (örn: base veya small).
Artık istediğiniz herhangi bir uygulamada metin alanına tıklayıp OpenWhispr kısayol tuşuna basılı tutarak konuşabilirsiniz. Tuşu bıraktığınız anda metniniz saniyeler içinde imlecin olduğu yere yazılacaktır.
Kurulumu tamamladıktan sonra varsayılan olarak metin düzenleme (ıı, hımm gibi sesleri silme, dilbilgisi düzeltme) işlemleri OpenWhispr'ın kendi bulut sunucuları üzerinden çalışıyor. Ancak ekran kartınızın gücünü kullanmak veya kendi yapılandırmanızı oluşturmak için ayarları değiştirmemiz gerekiyor.
Metin Temizleme (Text Cleanup) ve Yerel Yapay Zeka Ayarları
Uygulamayı kurduktan sonra, dikte ettiğiniz metindeki "ııı, eee" gibi duraksamaları silmek ve dilbilgisini toparlamak için (Text Cleanup) varsayılan olarak OpenWhispr'ın kendi bulut sunucuları kullanılır. Ancak güçlü bir donanımınız varsa bu işlemleri tamamen yerel cihazınıza (ekran kartınıza) devredebilirsiniz.
Ayarları yapmak için sol menüden AI MODELS -> Language Models sekmesine giriyoruz:
Aynı sayfanın en altındaki Prompt Studio kısmından, yapay zekanın metninizi nasıl düzelteceğine dair özel komutlar (Prompt) yazabilirsiniz. Sadece imla hatalarını düzeltmekle kalmayıp, örneğin "Söylediklerimi her zaman resmi bir e-posta formatına dönüştür" gibi kalıcı kurallar belirleyebilirsiniz.
Bu rehberde OpenWhispr'ı nasıl kuracağımızı ve Wayland altındaki
ydotool izin sorunlarını nasıl çözeceğimizi adım adım anlatıyorum.OpenWhispr Vulkan Sürümünün Kurulumu
STT (Speech-to-Text) işlemlerini işlemci yerine doğrudan ekran kartına yıkmak için standart sürüm yerine Vulkan destekli sürümü kurmamız gerekiyor. Bu sayede en ağır Whisper modellerini bile anında metne dökebiliriz.
Terminali açıp AUR üzerinden kurulumu başlatıyoruz:
paru -S openwhispr-vulkan*(Eğer
paru yerine yay kullanıyorsanız komutu ona göre değiştirebilirsiniz.)Wayland İçin Ydotool Kurulumu
Wayland'in güvenlik modeli gereği, bir uygulamanın başka bir pencereye (tarayıcı, editör vb.) doğrudan tuş vuruşu göndermesi kısıtlanmıştır. OpenWhispr'ın dikte ettiğiniz metni imlecinizin olduğu yere anında yazabilmesi için
ydotool paketine ihtiyacı var.Resmi depolardan paketi kuruyoruz:
sudo pacman -S ydotoolKullanıcı İzinlerinin Ayarlanması
ydotool'un sanal klavye girdisi oluşturabilmesi için sistemdeki kullanıcımızın giriş (input) aygıtlarına erişim yetkisi olması şart. Aksi takdirde "Your user is not in the 'input' group" hatası alırsınız.Kullanıcımızı
input grubuna eklemek için şu komutu giriyoruz:sudo usermod -aG input $USERYdotool Arka Plan Hizmetinin (Daemon) Başlatılması
Arch tabanlı sistemlerde
ydotool arka plan hizmeti root yetkisiyle değil, doğrudan kullanıcı düzeyinde (user service) çalışır. Bu yüzden sudo kullanmadan, doğrudan kendi kullanıcımız için servisi aktif edip başlatıyoruz:systemctl --user enable --now ydotoolSistemi Yeniden Başlatma
Yaptığımız grup yetkilendirmesinin (
input grubuna ekleme işlemi) sistemde aktif olabilmesi için mevcut oturumu kapatıp yeniden açmanız (Log out -> Log in) veya sistemi tamamen yeniden başlatmanız gerekiyor.OpenWhispr Ayarları
Sistemi yeniden başlattıktan sonra OpenWhispr'ı açın:1. Sağ üstten veya menüden Ayarlar kısmına girin.
2. STT / Model ayarlarına gelerek GPU hızlandırmasının / Vulkan backend'inin seçili olduğundan emin olun.
3. Uygun bir Whisper modelini indirin (örn: base veya small).
Artık istediğiniz herhangi bir uygulamada metin alanına tıklayıp OpenWhispr kısayol tuşuna basılı tutarak konuşabilirsiniz. Tuşu bıraktığınız anda metniniz saniyeler içinde imlecin olduğu yere yazılacaktır.
Kurulumu tamamladıktan sonra varsayılan olarak metin düzenleme (ıı, hımm gibi sesleri silme, dilbilgisi düzeltme) işlemleri OpenWhispr'ın kendi bulut sunucuları üzerinden çalışıyor. Ancak ekran kartınızın gücünü kullanmak veya kendi yapılandırmanızı oluşturmak için ayarları değiştirmemiz gerekiyor.
Metin Temizleme (Text Cleanup) ve Yerel Yapay Zeka Ayarları
Uygulamayı kurduktan sonra, dikte ettiğiniz metindeki "ııı, eee" gibi duraksamaları silmek ve dilbilgisini toparlamak için (Text Cleanup) varsayılan olarak OpenWhispr'ın kendi bulut sunucuları kullanılır. Ancak güçlü bir donanımınız varsa bu işlemleri tamamen yerel cihazınıza (ekran kartınıza) devredebilirsiniz.
Ayarları yapmak için sol menüden AI MODELS -> Language Models sekmesine giriyoruz:
- OpenWhispr Cloud: Görselde de gördüğünüz gibi başlangıçta aktif olan seçenektir. Herhangi bir ayar gerektirmez ancak veriler buluta gidip gelir.
- Local (Donanım İvmelendirmesi): RX 9070 XT'nin gücünü işte burada devreye sokuyoruz! Bu seçeneği işaretleyerek cihazınızda tamamen yerel çalışacak bir dil modeli (LLM) kullanabilirsiniz. Model doğrudan ekran kartınızın VRAM'ine yükleneceği için metin temizleme işlemi internete ihtiyaç duymadan, sıfır gecikmeyle ve tamamen gizlilik içinde gerçekleşir.
- Cloud Providers (Kendi API'niz): Eğer yerel model kurmakla uğraşmak istemiyor ama standart bulut servisine de takılmak istemiyorsanız, zaten teknoloji platformları entegrasyonlarında kullandığınız mevcut bir OpenAI API anahtarınız varsa buraya girebilirsiniz. Böylece metin düzeltme işlemlerini doğrudan kendi API kotanız üzerinden, çok daha gelişmiş modellerle (GPT-4o vb.) yapabilirsiniz.
Aynı sayfanın en altındaki Prompt Studio kısmından, yapay zekanın metninizi nasıl düzelteceğine dair özel komutlar (Prompt) yazabilirsiniz. Sadece imla hatalarını düzeltmekle kalmayıp, örneğin "Söylediklerimi her zaman resmi bir e-posta formatına dönüştür" gibi kalıcı kurallar belirleyebilirsiniz.