Aslında birkaç sorum var ama ben gene de sorularımı hem sorayım hem de cevap vermiş olayım. Öncelikle sadece transkript işlemi mi yapmak istiyorsun yoksa zaman damgalı olmalı konuşmacıyı tanımalı mı? Kendi bilgisayarında mı yapmak istiyorsun? Tam olrak nasıl bir MP4 videosunda ne amaçla kullanacağını açıklarsan daha iyi öneri yapabilirim.
1) Whisper:
Whisper'ın github sayfasına gidip kur. Sonra istediğin videoyu transkript ettir bu kadar basit. Tabii transkript yaparken kullandığın modelin boyutuna göre hızı azalacak, sistem gereksinimi artacak ama daha doğru bir transkript işlemi olacaktır.
2) YouTube'a videoyu yükle (liste dışı olabilir) sonra linki Gemini'ye at ve videodaki metinleri atlamadan her birini bana yaz tarzında prompt girerek yapmasını isteyebilirsin. 1 milyon tokeni algılayabildiği için sorunsuz yazacaktır. Eğer video çok büyükse ve tüm metni yazıya dökemiyorsa birkaç parça halinde videolara böl ve sırayla parça parça yazı dönüştürsün. Bu yöntemle de yapabilirsin.
3)
Subtitle Edit programı ile sesten yazıya dönüştürme aracını kullanabilirsin. Buradan da whisper ve Whisper'ın fine Tune edilmiş modellerini kullanabilirsin. Eğer bu yöntemi seçeceksen ve bilgisayarın biraz iyiyse LARGE-V3 modelini kullanmanı öneririm biraz yavaş ancak doğruluk oranı yüksek. Purfview's Faster Whisper XXL kullanıyorum ben ve dediğim gibi LARGE-V3 gayet güzel çalışıyor.
4) Bunlar dışında ücretli online siteler var ancak pek fazla deneyimlemediğim için önermiyorum yukarıdaki yöntemler işini çözer diye düşünüyorum.
Gene sorun olursa yazarsın cevaplamaya çalışırım.