Google, metin seslendirme alanında yeni nesil modeli Gemini 3.1 Flash TTS’i duyurdu. Yeni model; daha doğal ses kalitesi, gelişmiş ifade yetenekleri ve sahne yönlendirme desteğiyle dikkat çekiyor.
Gemini 3.1 Flash TTS ile Yapay Zekâ Ses Teknolojisinde Yeni Dönem
Gemini 3.1 Flash TTS’in en dikkat çeken yeniliği, ses etiketleri (audio tags) olarak adlandırılan doğal dil komutları. Kullanıcılar, doğrudan metin girişine yerleştirdikleri bu etiketlerle konuşma hızını, tonlamayı, aksanı ve duygusal ifadeyi milimetrik şekilde yönlendirebiliyor. Modelin sunduğu başlıca kontrol özellikleri şöyle sıralanıyor:
- Sahne yönlendirmesi: Ortam tanımı ve diyalog talimatlarıyla karakterlerin bağlama sadık kalması sağlanıyor.
- Konuşmacıya özel ayarlar: Benzersiz ses profilleriyle karakterler oluşturulup cümle ortasında bile ton veya aksan değiştirilebiliyor.
- Kesintisiz dışa aktarım: Parametreler, Gemini API kodu olarak doğrudan projelere entegre edilebiliyor.
Gemini 3.1 Flash TTS, 70’ten fazla dil desteğiyle küresel ölçekte yerelleştirilmiş, doğal ve etkileyici ses deneyimleri sunmayı hedefliyor. Artificial Analysis TTS Leaderboard’da 1.211 Elo puanı alan model, “en çekici kadran” içinde gösteriliyor. Burada yüksek kaliteli ses üretimi ile düşük maliyetin ideal şekilde birleştirilmesi öne çıkıyor.
Google, yapay zekâ ile üretilen içeriklerin kötüye kullanımını engellemek için ses çıktılarını SynthID teknolojisiyle filigranlıyor. Bu sayede modelin oluşturduğu tüm seslerin yapay zekâ tarafından üretildiği güvenilir şekilde tespit edilebiliyor.
Gemini 3.1 Flash TTS şu anda ön izleme kapsamında Gemini API ve Google AI Studio üzerinden geliştiricilere sunuluyor. Kurumsal kullanıcılar ise modeli Vertex AI üzerinden deneyebiliyor. Ayrıca Google Vids kullanıcıları da entegrasyon desteğinden faydalanabiliyor.
Özetle bu yeni model, yapay zekâ tabanlı sesli uygulamalar, sesli kitap, karakter seslendirmesi, eğitim içerikleri ve daha birçok alanda devrim yaratma potansiyeli taşıyor.
Kaynak: blog.google
