Görünen Köy Kılavuz İster: Deepfake Hakkında Herşey

Sosyal medyada geziniyorsunuz ve bir anda çok ünlü bir aktörün, normalde asla söylemeyeceği tuhaf bir şeyi söylediği bir video görüyorsunuz. Ya da bir siyasetçinin, kariyerini bitirecek bir açıklama yaptığına tanık oluyorsunuz. Görüntü net, ses ona ait, her şey gerçek görünüyor ama değil.

İşte bu, deepfake teknolojisinin bir sonucu. Bu kelime, deep learning (derin öğrenme) ve fake (sahte) kelimelerinin birleşiminden oluşuyor. Artık basit bir video montajından veya kötü bir Photoshop çalışmasından bahsetmiyoruz; bir yapay zekanın, bir insanı dijital olarak klonlamasından bahsediyoruz. Bu teknoloji, gördüklerimize ve duyduklarımıza olan temel güvenimizi sarsma potansiyeline sahip. Peki, bu teknoloji tam olarak nasıl çalışıyor, bu iş nasıl başladı ve bir videoyu bu kadar inandırıcı hale getirmeyi nasıl başarıyor?

Deepfake’in Hikayesi

Deepfake terimi, büyük bir teknoloji laboratuvarında veya bir üniversitede doğmadı. 2017’nin sonlarında, internetin en tartışmalı platformlarından biri olan Reddit üzerinde ortaya çıktı. Deepfakes adını kullanan bir kullanıcı, (o zamanlar daha çok akademik çevrelerde bilinen) açık kaynaklı yapay zeka araçlarını kullanarak, ünlü kadınların yüzlerini rızaları olmadan müstehcen video içeriklerine yerleştirmeye başladı. Bu, teknolojinin karanlık ve etik dışı başlangıç noktasıydı.

Bu kullanıcı (ve onu takip eden topluluk), Oto-kodlayıcı (Autoencoder) adı verilen bir derin öğrenme modelini kullanıyordu. Bu yöntemin temel çalışma prensibi, bir yüzün temel özelliklerini sıkıştırıp yeniden oluşturmaya dayanır:

  1. Sistem Eğitimi: İki ayrı oto-kodlayıcı modeli eğitilir. Birinci model, Kişi A’nın (örneğin Nicolas Cage) binlerce fotoğrafına bakarak onun yüzünün temel özelliklerini (kaş yapısı, gülüş şekli gibi) sıkıştırılmış bir veri haline getirmeyi (Kodlama) ve bu veriden yüzü yeniden oluşturmayı (Kod Çözme) öğrenir. İkinci model de aynı şeyi Kişi B (videodaki asıl oyuncu) için yapar.
  2. Yüz Değişimi: Kişi B’nin videosu alındığında, sistem videoyu kare kare analiz eder. Her karedeki Kişi B’nin yüzü, kendi modelinden geçirilerek o andaki mimik ve ifade verisi (o temel özellik verisi) çıkarılır.
  3. Hile: Son aşamada, Kişi B’den alınan bu mimik verisi, Kişi A’nın (Nicolas Cage) Kod Çözücüsüne gönderilir. Sonuç olarak, Kişi A’nın modeli, Kişi B’nin mimiklerini kullanarak kendi yüzünü o karenin üzerine yeniden çizer.

Bu yöntem, deepfakes adlı bir Reddit kullanıcısı tarafından topluluğa hızla yayıldı. Ancak topluluğun odak noktası neredeyse tamamen rıza dışı müstehcen içerik üretimi olduğu için, platform etik tartışmaların ardından bu topluluğu yasakladı. Ama artık çok geçti; kod ve yöntemler internete yayılmıştı.

Akademik çevreler ise bu fikri yıllardır araştırıyordu. 2016’daki Face2Face adlı bir proje, bir web kamerası kullanarak bir kişinin (kaynak) yüz hareketlerini, başka bir kişinin (hedef) videosuna gerçek zamanlı olarak aktarabiliyordu. Bu daha çok dijital bir kukla oynatıcılığı gibi çalışıyordu; kaynak aktörün hareketleri, hedefin üç boyutlu bir yüz modeline giydiriliyordu.

Bu teknolojiyi manşetlere taşıyan ve kamuoyunu sarsan asıl olay, 2018’de yaşandı. BuzzFeed ve yönetmen/komedyen Jordan Peele bir araya gelerek bir kamu spotu hazırladı. Bu videoda, eski ABD Başkanı Barack Obama, normalde asla söylemeyeceği şeyler söylüyordu.

Bu video, bir aldatmaca amacıyla değil, tam tersine toplumu bu teknolojinin tehlikeleri hakkında uyarmak için yapıldı. Jordan Peele, Obama’nın sesini taklit ederken, yapay zeka da Peele’in ağız ve yüz hareketlerini Obama’nın görüntüsüne yerleştirdi. Videonun sonunda artık gördüğümüz her şeye inanamayacağımız bir döneme girdiğimiz mesajı verildi. Bu, deepfake’in bir Reddit eğlencesinden, ulusal güvenlik meselesine dönüştüğü andı.

Daha Gelişmiş Yöntem: GAN (Üretici Çekişmeli Ağlar)

Oto-kodlayıcılar temel yöntemi oluştursa da, günümüzdeki en yüksek kaliteli deepfake’ler genellikle GAN (Generative Adversarial Networks), yani Üretici Çekişmeli Ağlar kullanarak kaliteyi artırır. Bu sistem, birbiriyle sürekli rekabet halinde olan iki yapay zeka olarak çalışır:

  1. Jeneratör (Üretici): Bu, sahtekâr veya ressam olan yapay zeka. Görevi, hedef kişinin yüzünü sıfırdan oluşturmaya çalışmak.
  2. Diskriminatör (Ayrıştırıcı): Bu da dedektif veya sanat eleştirmeni olan yapay zeka. Onun görevi ise, Jeneratör’ün ürettiği sahte görüntüye ve hedef kişinin gerçek görüntülerine bakıp, “Hangisi sahte, hangisi gerçek?” sorusuna cevap vermek.

İşte asıl süreç burada başlıyor:

Sonunda, Jeneratör o kadar gerçekçi bir yüz üretir ki, Dedektif artık hangisinin gerçek hangisinin sahte olduğunu ayırt edemez hale gelir. GAN’lar, özellikle fotoğraftan yeni yüzler üretme veya var olan görüntülerin kalitesini artırma konusunda çok etkili.

TikTok’ta ortaya çıkan bu videolar, teknolojinin ne kadar ilerlediğini gösterdi. Bu videoların kalitesi o kadar yüksekti ki, milyonlarca insan bunların gerçek Tom Cruise olduğuna inandı. Yaratıcısı Chris Ume, daha sonra bu videoların sadece yapay zeka olmadığını açıkladı. Kendisi profesyonel bir görsel efekt (VFX) sanatçısıydı. Önce DeepFaceLab (oto-kodlayıcı tabanlı bir araç) ile temel yüz değişimini yapıyor, ardından videoyu alıp, klasik görsel efekt yazılımlarıyla (After Effects gibi) saatlerce manuel olarak temizliyordu. Yani en inandırıcı sonuçlar, genellikle yapay zeka ile insan sanatçılığının birleşiminden çıkıyor.

Tehlikenin Bir Sonraki Adımı: Ses Klonlama (Audio Deepfakes)

Bir videoyu gerçekten inandırıcı kılan son parça sestir. Yapay zeka, sadece yüzleri değil, sesleri de kopyalayabiliyor. Bir kişinin (örneğin bir CEO veya siyasetçi) sadece birkaç dakikalık, hatta bazen saniyeler içinde, temiz bir ses kaydını analiz eden yapay zeka modelleri var. Bu modeller, o kişinin ses tonunu, vurgularını, nefes alma biçimini ve aksanını öğrenir.

Sonuç? Artık o yapay zekaya istediğiniz herhangi bir metni yazıp, o kişinin sesiyle okutabilirsiniz. Bu yöntem, özellikle CEO dolandırıcılığı olarak bilinen suçlarda kullanılıyor. Dolandırıcı, bir şirketin CEO’sunun sesini klonlayıp, muhasebe departmanındaki bir çalışanı arıyor ve “Çok acil, şu hesaba para transferi yapın” diyerek milyonlarca dolarlık vurgunlar yapabiliyor. Hatta aile üyelerinin sesini taklit ederek “Kaçırıldım, fidye istiyorlar” diyen dolandırıcılar bile ortaya çıktı.

Neden Bu Kadar Tehlikeli? Toplumsal Etkileri

Deepfake teknolojisinin tehlikesi, sadece sahte içerik üretmesi değil, aynı zamanda doğrulara olan güveni sarsması.

Ama belki de en büyük tehlike, Yalancının Kâr Payı (Liar’s Dividend) olarak bilinen durum. Bu, deepfake’lerin varlığının, gerçek kanıtları da şüpheli hale getirmesi demek. Bazı kişilerin bu durum üzerinden gerçekleri de perdelemesine olanak tanıyor. Örneğin, bir siyasetçi yolsuzluk yaparken gerçekten kameraya yakalandığında, artık çok kolay bir savunması var: “Bu video deepfake.” Halkın kafası karıştığında ve “Artık neye inanacağımızı bilmiyoruz” noktasına geldiğinde, gerçekle yalan arasındaki çizgi tamamen kaybolur. Bu durum, paylaşılan gerçeklik algısını temelden sarsıyor.

Peki Bu Deepfake’in İyi Bir Yanı Yok Mu? Pozitif Kullanım Alanları

Tüm bu tehlikelere rağmen, deepfake’in temelindeki teknoloji bazı olumlu amaçlar için de kullanılabilir:

Deepfake Nasıl Anlaşılır? Tespit Yöntemleri

Teknoloji sürekli gelişse de, yapay zekanın hâlâ zorlandığı bazı detaylar var. Bir videonun sahte olup olmadığını anlamak için şu noktalara dikkat edebilirsiniz:

Bu teknoloji geliştikçe, böyle hataları gözle görmek de zorlaşıyor. Microsoft, Intel, Adobe gibi şirketler ve birçok üniversite, bu sahte içerikleri otomatik olarak tespit eden yapay zeka dedektörleri üzerinde çalışıyor. Ancak bu da bir kedi-fare oyunu: Dedektörler geliştikçe, Jeneratörler (üreticiler) de o dedektörleri atlatmayı öğreniyor.

Bu konuda alınabilecek en doğru önlem, teknolojik araçlardan çok, eleştirel düşünme becerimiz. Gördüğümüz her şeye, özellikle de olağanüstü gerçek dışı, inanılmaz görünen içeriklere şüpheyle yaklaşmak ve kaynağını doğrulamak büyük önem taşıyor.

Exit mobile version