Netflix, VOID adını verdiği yeni açık kaynak video düzenleme modeliyle sahnelerden nesneleri kaldırmayı bir adım öteye taşıdı. VOID (Video Object and Interaction Deletion), yalnızca nesneyi silmekle kalmıyor; o nesnenin sahne üzerindeki etkilerini de hesaba katıp görüntüyü fiziksel olarak tutarlı biçimde yeniden kurguluyor. Model arXiv’de yayımlanan çalışmayla tanıtıldı ve Hugging Face ile GitHub’da herkesin denemesi için paylaşıldı.
Nasıl çalışıyor?
Süreç basit bir “maskeyle sil” yaklaşımından daha fazlası. Önce bir görsel-dil modeli (VLM) sahnede kaldırılan nesnenin etkilediği bölgeleri belirliyor. Bu bilgi, dört değerli bir “quadmask”a kodlanıyor: kaldırılacak ana nesne, örtüşme bölgeleri, etkilenmiş alanlar (örneğin düşecek veya yeri değişecek nesneler) ve korunacak arka plan. Ardından, CogVideoX-Fun-V1.5-5b-InP tabanlı bir video difüzyon modeli bu maskeyi ve kısa bir açıklama metnini kullanarak, nesne hiç var olmamış gibi tutarlı bir karşı-gerçek (counterfactual) video üretiyor. Uzun kliplerde şekil bozulmalarını azaltmak için isteğe bağlı ikinci bir geçiş (optik akışla “flow-warped” gürültü başlatma) da var. Varsayılan çözünürlük 384×672 ve maksimum 197 kare destekleniyor; örnek not defteriyle çalıştırmak için A100 sınıfı 40GB+ GPU öneriliyor.
Maskeyi üretmek için sağlanan boru hattı, Meta’nın SAM2’sini segmentasyon için ve Gemini’yi sahnedeki etkileşimleri gerekçelendirmek için kullanabiliyor. Eğitim tarafında ise VOID’un güçlü yanı, “nesne çıkarıldıktan sonra sahnede neler değişir?” sorusuna cevap veren karşı-gerçek veri çiftleri. Ekip bu çiftleri fizik simülasyonlarıyla HUMOTO ve Kubric üzerinde oluşturarak modeli fiziksel etkileşimlere duyarlı hale getirmiş. Kodlar, kontrol dosyaları, demo Space ve Colab not defteri açık biçimde sunuluyor; lisans Apache 2.0.
Neden önemli?
Güncel video “inpainting” araçları gölgeler ve yansımalar gibi kozmetik detayları düzeltebiliyor. Ancak çarpışma, düşme ya da zincirleme reaksiyonlar içeren sahnelerde fiziksel sonuçları da doğru yazmak zor. VOID’un iddiası tam burada: Nesneyi sildiğinizde, geride kalan dünyanın nasıl davranacağını daha tutarlı biçimde tahmin ediyor. Proje sayfasındaki karşılaştırmalı demolar ve makaledeki değerlendirmeler, önceki yöntemlere göre sahne dinamiklerini daha iyi koruduğunu gösteriyor.
Kısacası VOID’un odağı, “piksel doldurma”yı aşarak neden–sonuç ilişkisini modellemek. Bu yaklaşım; çekim sonrası düzeltmeler, set güvenliği için plan değişiklikleri ya da istenmeyen ögelerin temizlenmesi gibi iş akışlarında hatırı sayılır zaman kazandırma potansiyeli taşıyor.
Kaynak: www.techspot.com