Görünen Köy Kılavuz İster: Deepfake Hakkında Herşey

ramazan çelik

9 ay önce

Sosyal medyada geziniyorsunuz ve bir anda çok ünlü bir aktörün, normalde asla söylemeyeceği tuhaf bir şeyi söylediği bir video görüyorsunuz. Ya da bir siyasetçinin, kariyerini bitirecek bir açıklama yaptığına tanık oluyorsunuz. Görüntü net, ses ona ait, her şey gerçek görünüyor ama değil.

İşte bu, deepfake teknolojisinin bir sonucu. Bu kelime, deep learning (derin öğrenme) ve fake (sahte) kelimelerinin birleşiminden oluşuyor. Artık basit bir video montajından veya kötü bir Photoshop çalışmasından bahsetmiyoruz; bir yapay zekanın, bir insanı dijital olarak klonlamasından bahsediyoruz. Bu teknoloji, gördüklerimize ve duyduklarımıza olan temel güvenimizi sarsma potansiyeline sahip. Peki, bu teknoloji tam olarak nasıl çalışıyor, bu iş nasıl başladı ve bir videoyu bu kadar inandırıcı hale getirmeyi nasıl başarıyor?

Deepfake’in Hikayesi

Deepfake terimi, büyük bir teknoloji laboratuvarında veya bir üniversitede doğmadı. 2017’nin sonlarında, internetin en tartışmalı platformlarından biri olan Reddit üzerinde ortaya çıktı. Deepfakes adını kullanan bir kullanıcı, (o zamanlar daha çok akademik çevrelerde bilinen) açık kaynaklı yapay zeka araçlarını kullanarak, ünlü kadınların yüzlerini rızaları olmadan müstehcen video içeriklerine yerleştirmeye başladı. Bu, teknolojinin karanlık ve etik dışı başlangıç noktasıydı.

Bu kullanıcı (ve onu takip eden topluluk), Oto-kodlayıcı (Autoencoder) adı verilen bir derin öğrenme modelini kullanıyordu. Bu yöntemin temel çalışma prensibi, bir yüzün temel özelliklerini sıkıştırıp yeniden oluşturmaya dayanır:

Sistem Eğitimi: İki ayrı oto-kodlayıcı modeli eğitilir. Birinci model, Kişi A’nın (örneğin Nicolas Cage) binlerce fotoğrafına bakarak onun yüzünün temel özelliklerini (kaş yapısı, gülüş şekli gibi) sıkıştırılmış bir veri haline getirmeyi (Kodlama) ve bu veriden yüzü yeniden oluşturmayı (Kod Çözme) öğrenir. İkinci model de aynı şeyi Kişi B (videodaki asıl oyuncu) için yapar.
Yüz Değişimi: Kişi B’nin videosu alındığında, sistem videoyu kare kare analiz eder. Her karedeki Kişi B’nin yüzü, kendi modelinden geçirilerek o andaki mimik ve ifade verisi (o temel özellik verisi) çıkarılır.
Hile: Son aşamada, Kişi B’den alınan bu mimik verisi, Kişi A’nın (Nicolas Cage) Kod Çözücüsüne gönderilir. Sonuç olarak, Kişi A’nın modeli, Kişi B’nin mimiklerini kullanarak kendi yüzünü o karenin üzerine yeniden çizer.

Bu yöntem, deepfakes adlı bir Reddit kullanıcısı tarafından topluluğa hızla yayıldı. Ancak topluluğun odak noktası neredeyse tamamen rıza dışı müstehcen içerik üretimi olduğu için, platform etik tartışmaların ardından bu topluluğu yasakladı. Ama artık çok geçti; kod ve yöntemler internete yayılmıştı.

Akademik çevreler ise bu fikri yıllardır araştırıyordu. 2016’daki Face2Face adlı bir proje, bir web kamerası kullanarak bir kişinin (kaynak) yüz hareketlerini, başka bir kişinin (hedef) videosuna gerçek zamanlı olarak aktarabiliyordu. Bu daha çok dijital bir kukla oynatıcılığı gibi çalışıyordu; kaynak aktörün hareketleri, hedefin üç boyutlu bir yüz modeline giydiriliyordu.

Bu teknolojiyi manşetlere taşıyan ve kamuoyunu sarsan asıl olay, 2018’de yaşandı. BuzzFeed ve yönetmen/komedyen Jordan Peele bir araya gelerek bir kamu spotu hazırladı. Bu videoda, eski ABD Başkanı Barack Obama, normalde asla söylemeyeceği şeyler söylüyordu.

Bu video, bir aldatmaca amacıyla değil, tam tersine toplumu bu teknolojinin tehlikeleri hakkında uyarmak için yapıldı. Jordan Peele, Obama’nın sesini taklit ederken, yapay zeka da Peele’in ağız ve yüz hareketlerini Obama’nın görüntüsüne yerleştirdi. Videonun sonunda artık gördüğümüz her şeye inanamayacağımız bir döneme girdiğimiz mesajı verildi. Bu, deepfake’in bir Reddit eğlencesinden, ulusal güvenlik meselesine dönüştüğü andı.

Daha Gelişmiş Yöntem: GAN (Üretici Çekişmeli Ağlar)

Oto-kodlayıcılar temel yöntemi oluştursa da, günümüzdeki en yüksek kaliteli deepfake’ler genellikle GAN (Generative Adversarial Networks), yani Üretici Çekişmeli Ağlar kullanarak kaliteyi artırır. Bu sistem, birbiriyle sürekli rekabet halinde olan iki yapay zeka olarak çalışır:

Jeneratör (Üretici): Bu, sahtekâr veya ressam olan yapay zeka. Görevi, hedef kişinin yüzünü sıfırdan oluşturmaya çalışmak.
Diskriminatör (Ayrıştırıcı): Bu da dedektif veya sanat eleştirmeni olan yapay zeka. Onun görevi ise, Jeneratör’ün ürettiği sahte görüntüye ve hedef kişinin gerçek görüntülerine bakıp, “Hangisi sahte, hangisi gerçek?” sorusuna cevap vermek.

İşte asıl süreç burada başlıyor:

Jeneratör, ilk başta çok kötü anlamsız bir görüntü üretir.
Dedektif, buna bakar ve “Bu %100 sahte” der.
Jeneratör, bu geri bildirimi alır ve “Neden sahte dedi? Demek ki gözleri yanlış yaptım,” diyerek kendini düzeltir ve daha iyi bir sahte görüntü üretir.
Dedektif, bu yeni görüntüye bakar. “Bu da sahte, ama daha iyiydi” der.
Bu döngü, yani Jeneratör’ün sürekli daha iyi sahteler üretmesi ve Dedektif’in de bu sahteleri yakalamakta sürekli ustalaşması, kelimenin tam anlamıyla milyonlarca kez tekrarlanır.

Sonunda, Jeneratör o kadar gerçekçi bir yüz üretir ki, Dedektif artık hangisinin gerçek hangisinin sahte olduğunu ayırt edemez hale gelir. GAN’lar, özellikle fotoğraftan yeni yüzler üretme veya var olan görüntülerin kalitesini artırma konusunda çok etkili.

TikTok’ta ortaya çıkan bu videolar, teknolojinin ne kadar ilerlediğini gösterdi. Bu videoların kalitesi o kadar yüksekti ki, milyonlarca insan bunların gerçek Tom Cruise olduğuna inandı. Yaratıcısı Chris Ume, daha sonra bu videoların sadece yapay zeka olmadığını açıkladı. Kendisi profesyonel bir görsel efekt (VFX) sanatçısıydı. Önce DeepFaceLab (oto-kodlayıcı tabanlı bir araç) ile temel yüz değişimini yapıyor, ardından videoyu alıp, klasik görsel efekt yazılımlarıyla (After Effects gibi) saatlerce manuel olarak temizliyordu. Yani en inandırıcı sonuçlar, genellikle yapay zeka ile insan sanatçılığının birleşiminden çıkıyor.

Tehlikenin Bir Sonraki Adımı: Ses Klonlama (Audio Deepfakes)

Bir videoyu gerçekten inandırıcı kılan son parça sestir. Yapay zeka, sadece yüzleri değil, sesleri de kopyalayabiliyor. Bir kişinin (örneğin bir CEO veya siyasetçi) sadece birkaç dakikalık, hatta bazen saniyeler içinde, temiz bir ses kaydını analiz eden yapay zeka modelleri var. Bu modeller, o kişinin ses tonunu, vurgularını, nefes alma biçimini ve aksanını öğrenir.

Sonuç? Artık o yapay zekaya istediğiniz herhangi bir metni yazıp, o kişinin sesiyle okutabilirsiniz. Bu yöntem, özellikle CEO dolandırıcılığı olarak bilinen suçlarda kullanılıyor. Dolandırıcı, bir şirketin CEO’sunun sesini klonlayıp, muhasebe departmanındaki bir çalışanı arıyor ve “Çok acil, şu hesaba para transferi yapın” diyerek milyonlarca dolarlık vurgunlar yapabiliyor. Hatta aile üyelerinin sesini taklit ederek “Kaçırıldım, fidye istiyorlar” diyen dolandırıcılar bile ortaya çıktı.

Neden Bu Kadar Tehlikeli? Toplumsal Etkileri

Deepfake teknolojisinin tehlikesi, sadece sahte içerik üretmesi değil, aynı zamanda doğrulara olan güveni sarsması.

Dezenformasyon ve Propaganda: En bariz tehdit budur. Seçim zamanlarında bir adayın söylemediği bir sözü söylediği bir video, daha o videonun sahte olduğu kanıtlanana kadar viral olup tüm seçim sürecini etkileyebilir. 2022’de Ukrayna savaşında, Başkan Zelenskyy’nin askerlere “teslim olun” dediği düşük kaliteli bir deepfake video yayınlandı. Düşük kaliteli olduğu için hızla sahte olduğu anlaşıldı. Ancak bir sonraki, çok daha yüksek kaliteli olabilir ve bir kriz anının ilk saatlerinde yayılabilir.
Kişisel Saldırılar ve İtibar Suikastı: Bu teknolojinin en yaygın ve en karanlık kullanım alanı, ne yazık ki kişisel itibarı zedelemek. Özellikle kadınların yüzleri, rızaları dışında müstehcen içeriklere eklenerek taciz ve şantaj materyali üretiliyor. Bu durum, mağdurlar üzerinde derin psikolojik hasara yol açıyor.
Dolandırıcılık: Yukarıda bahsettiğimiz ses klonlama olayı, işin sadece bir kısmı. Sahte video konferans görüşmeleri veya sahte kimlik doğrulama videoları ile finansal suçların kapsamı genişliyor.

Ama belki de en büyük tehlike, Yalancının Kâr Payı (Liar’s Dividend) olarak bilinen durum. Bu, deepfake’lerin varlığının, gerçek kanıtları da şüpheli hale getirmesi demek. Bazı kişilerin bu durum üzerinden gerçekleri de perdelemesine olanak tanıyor. Örneğin, bir siyasetçi yolsuzluk yaparken gerçekten kameraya yakalandığında, artık çok kolay bir savunması var: “Bu video deepfake.” Halkın kafası karıştığında ve “Artık neye inanacağımızı bilmiyoruz” noktasına geldiğinde, gerçekle yalan arasındaki çizgi tamamen kaybolur. Bu durum, paylaşılan gerçeklik algısını temelden sarsıyor.

Peki Bu Deepfake’in İyi Bir Yanı Yok Mu? Pozitif Kullanım Alanları

Tüm bu tehlikelere rağmen, deepfake’in temelindeki teknoloji bazı olumlu amaçlar için de kullanılabilir:

Sinema ve Eğlence: Dublaj. Bir film yıldızı rolünü ana dilinde oynar, yapay zeka da onun ağız ve dudak hareketlerini, o dili konuşuyormuş gibi kusursuzca değiştirir. Bu, dublajın yapay durma sorununu çözebilir. Ayrıca, The Irishman filmindeki gibi oyuncuları dijital olarak gençleştirme (de-aging) veya Star Wars filmlerinde olduğu gibi, hayatını kaybetmiş oyuncuları (ailelerinin izniyle) dijital olarak canlandırma işlemlerini kolaylaştırabilir.
Eğitim: Tarihi figürlerin (Atatürk, Einstein, Marie Curie) “canlandırıldığı” ve kendi derslerini anlattığı interaktif müze sergileri veya eğitim videoları oluşturulabilir.
Sağlık: Sesini kaybeden (ALS hastaları gibi) kişilerin eski ses kayıtları kullanılarak, onlara kendi sesleriyle konuşmaya devam etme imkanı tanıyan dijital ses protezleri yaratılabilir.

Deepfake Nasıl Anlaşılır? Tespit Yöntemleri

Teknoloji sürekli gelişse de, yapay zekanın hâlâ zorlandığı bazı detaylar var. Bir videonun sahte olup olmadığını anlamak için şu noktalara dikkat edebilirsiniz:

Tekinsiz Vadi Hissi (Uncanny Valley): En yaygın ipucu budur. Yüz gerçek gibi görünür ama bir şeyler yanlış hissettirir. Duygular yüze tam yansımaz, gülümseme yapmacık durur, gözler adeta ölü gibi bakar.
Göz Kırpma: Yapay zeka, doğal göz kırpma ritmini taklit etmekte zorlanır. Kişi ya hiç göz kırpmaz ya da çok doğal olmayan bir sıklıkta (çok hızlı veya çok yavaş) göz kırpar. Bu, modellerin göz kırpma anının fotoğraflarını yeterince görmemesiyle ilgiliydi, ancak yeni modeller bu konuda daha iyi.
Kenar Bozulmaları: Yüzün saç çizgisiyle veya boyunla birleştiği yerlere dikkat edin. Bu kenarlarda bulanıklık, piksellenme veya tuhaf geçişler olabilir.
Tutarsız Işık ve Gölgeler: Yüzdeki ışıklandırma ile videonun geri kalanındaki (örneğin omuzundaki veya arka plandaki) ışıklandırma birbiriyle tutarsız görünüyorsa, bu bir ipucu olabilir. Yüzün altındaki gölge, başın açısıyla uyuşmayabilir.
Dişler, Gözler ve Saç: Yapay zeka, bu ince detaylarda zorlanır. Dişler bazen tek bir blok gibi, fazla mükemmel veya bulanık görünebilir. Gözlerdeki yansımalar doğal durmayabilir. Saç telleri, özellikle yüzün kenarlarında, yapay bir şekilde yapışmış gibi görünebilir.
Yandan Görünüş (Profil): Çoğu model, yüzün tam karşıdan veya hafif açılı fotoğraflarıyla eğitilir. Hedef kişi kafasını tam 90 derece yana çevirdiğinde, yüz düzleşebilir veya bozulabilir.
Kukla Hissi: Bazen yüz, kafaya sonradan yapıştırılmış gibi durur; kafa hareket eder ama yüz o harekete tam ayak uyduramaz, sanki bir maske gibi kayar.

Bu teknoloji geliştikçe, böyle hataları gözle görmek de zorlaşıyor. Microsoft, Intel, Adobe gibi şirketler ve birçok üniversite, bu sahte içerikleri otomatik olarak tespit eden yapay zeka dedektörleri üzerinde çalışıyor. Ancak bu da bir kedi-fare oyunu: Dedektörler geliştikçe, Jeneratörler (üreticiler) de o dedektörleri atlatmayı öğreniyor.

Bu konuda alınabilecek en doğru önlem, teknolojik araçlardan çok, eleştirel düşünme becerimiz. Gördüğümüz her şeye, özellikle de olağanüstü gerçek dışı, inanılmaz görünen içeriklere şüpheyle yaklaşmak ve kaynağını doğrulamak büyük önem taşıyor.