Microsoft, Sesleri Çözümleyen VibeVoice-ASR Modelini Açık Kaynak Yaptı

Kürşat Öztürk

2 ay önce

Microsoft, uzun formlu konuşma tanıma alanında öne çıkan VibeVoice-ASR modelini açık kaynak olarak yayınladı. Model, 60 dakikaya kadar kesintisiz ses kaydını parçalara bölmeden, bağlam kaybı yaşamadan ve kimin ne zaman ne söylediğini tek geçişte çıkarabiliyor.

VibeVoice-ASR, Uzun Formdaki Sesleri Analiz Ederek Konuşmacı, Zaman ve İçeriği Tek Çıktıda Sunuyor

VibeVoice-ASR’ın en dikkat çekici özelliği, geleneksel ASR (Otomatik Konuşma Tanıma) sistemlerinin aksine ses verisini parçalara bölmeden analiz edebilmesi. Çoğu model uzun kayıtları küçük segmentlere ayırırken bu süreçte bağlam kaybı yaşanabiliyor. Bu model ise 64K token uzunluğu kapsamında yaklaşık 60 dakikalık sesi tek geçişte işleyerek konuşma bütünlüğünü koruyor.

Bu yaklaşım, özellikle çok konuşmacılı içeriklerde önemli bir avantaj sağlıyor. Model, yalnızca metne döküm yapmakla kalmıyor; aynı zamanda “kim konuştu, ne zaman konuştu ve ne söyledi” sorularına da tek çıktı içinde yanıt veriyor. Böylece konuşmacı ayrımı (speaker diarization) ve zaman damgası (timestamp) gibi işlemler ek araçlara ihtiyaç duymadan gerçekleştirilebiliyor.

50’den Fazla Dil ve Özelleştirilebilir Bağlam Desteği

VibeVoice-ASR, yerel olarak 50’den fazla dili destekliyor. Kullanıcılar, ayrıca modele “hotword” adı verilen özel anahtar kelimeler tanımlayarak teknik terimler, özel isimler veya alan spesifik kavramlar için doğruluğu artırabiliyor. Bu özellik, özellikle medya, akademik içerik üretimi ve kurumsal toplantı kayıtları gibi alanlarda kritik önem taşıyor.

Transformers Entegrasyonu ve Açık Kaynak Yaklaşımı

Model, Mart 2026 itibarıyla Hugging Face Transformers kütüphanesine entegre edildi. Bu sayede geliştiriciler, VibeVoice-ASR’ı mevcut makine öğrenimi iş akışlarına doğrudan dahil edebiliyor. Ayrıca modelin tamamen açık kaynak olarak sunulması; ücretsiz kullanım, ince ayar ve farklı projelere entegre edilmesini mümkün kılıyor.

VibeVoice Ekosistemi Genişliyor

Öte yandan VibeVoice yalnızca bir ASR modelinden ibaret değil; aynı çatı altında farklı kullanım senaryolarına hitap eden modeller de bulunuyor:

VibeVoice-ASR: Uzun form konuşma tanıma
VibeVoice-TTS: 90 dakikaya kadar çok konuşmacılı metinden ses üretimi
VibeVoice-Streaming: Düşük gecikmeli gerçek zamanlı TTS

VibeVoice’un başarısının arkasında, 7.5 Hz gibi ultra düşük kare hızında çalışan sürekli ses belirteçleri (tokenizers) yatıyor. Sistem, dil modeli tabanlı bağlam anlayışını difüzyon tabanlı akustik üretimle birleştirerek hem verimlilik hem de ses kalitesi açısından optimize edilmiş bir yapı sunuyor.

Riskler ve Sınırlamalar

Her ne kadar güçlü yetenekler sunsa da modelin bazı önemli sınırlamaları bulunuyor. VibeVoice-ASR, temelinde Qwen2.5 mimarisine dayandığı için bu modelden kaynaklanan hataları ve ön yargıları miras alabiliyor. Ayrıca yüksek kaliteli ses üretimi ve analiz yetenekleri, deepfake ve yanlış bilgi üretimi gibi kötüye kullanım senaryolarını da beraberinde getirebiliyor.

Bu nedenle geliştirici ekip, modelin ticari veya gerçek dünya uygulamalarında kullanılmadan önce kapsamlı testlerden geçirilmesini öneriyor. Aynı zamanda kullanıcıların yasal düzenlemelere uygun hareket etmesi ve yapay zekâ kullanımı konusunda şeffaf olması gerektiği vurgulanıyor.

Sonuç olarak Microsoft, VibeVoice projesini doğrudan ticari bir ürün olarak konumlandırmak yerine, araştırma ve geliştirme odaklı bir açık kaynak girişimi olarak sunuyor. Bu yaklaşım ile şirket, ses yapay zekâsı alanında iş birliğini artırmayı ve yeni nesil konuşma teknolojilerinin gelişimini hızlandırmayı amaçlıyor.

Kaynak: VibeVoice