Yapay Görselleri Ayırt Etmek Zorlaştı: Fizik Hâlâ İpucu Veriyor

Gürsel Yanıkkaya

2 ay önce

Son dönemde üretilen yapay görselleri çıplak gözle ayırt etmek giderek zorlaşıyor. Yine de fizik kuralları hâlâ işliyor: Işık, gölge ve perspektifteki küçük tutarsızlıklar sahte bir fotoğrafı ele verebiliyor. CVPR 2024’te sunulan bir çalışma, güncel üretici modellerin gerçek dünyanın izdüşüm geometrisini tam oturtamadığını; kaçış noktaları, doğrular ve nesne–gölge ilişkilerinde sistematik hatalar yaptığını gösteriyor. Bu tür geometrik ipuçları yalnızca piksellere değil, sahnenin mekânsal mantığına bakarak sahteyi yakalayabiliyor.

Benzer şekilde, yüzlerdeki yansıma fiziği de zor bir engel. Yeni bir araştırma, göz bebeklerindeki parlaklık (catchlight) ve cilalı yüzeylerdeki ayna yansımalarının tek ışık kaynağıyla tutarlı olup olmadığının ölçülmesiyle sahte yüzlerin ayırt edilebildiğini raporluyor. Özellikle ayna yansımalarının (Phong modelindeki “specular” bileşen) çok parametreli yapısı, üretici modeller için hâlâ sorunlu.

Öte yandan insanlar bu sahte kareleri sanıldığı kadar iyi yakalayamıyor. Yakın tarihli çalışmalar, özellikle gerçekçi yüzlerde ve tıbbi görüntülerde uzmanların bile sıkça yanıldığını ortaya koyuyor. Bu da otomatik doğrulama araçlarına ve içerik kimlik bilgileri (C2PA) gibi şeffaflık standartlarına olan ihtiyacı artırıyor.

Ne işe yarıyor, neye bakmalı?

Kaçış noktaları ve doğrular: Zemin karo çizgileri, duvar köşeleri, yol şeritleri ve hatta gölgeler aynı kaçış noktasına bağlanmalı. Eğri–büğrü veya birbirini tutmayan çizgiler alarm işareti.
Gölge yönü ve uzunluğu: Sahnedeki tüm nesnelerin gölgeleri tek ışık kaynağına göre aynı yönde ve oranda uzamalı. Özellikle iç mekânda çelişkiler sık görülüyor.
Yansıma tutarlılığı: Gözdeki parlak noktanın konumu, metal/cam yüzeylerdeki ayna yansımaları ve parıltının şekli ışık kaynağıyla uyumlu olmalı.
Metin ve tabela: Arka plandaki yazılar çoğu modelde hâlâ bozuluyor ya da anlamsızlaşıyor; yakından bakın.
İçerik kimliği ve araçlar: C2PA/Content Credentials kontrolü ve dedektörlerle (ör. difüzyon izi yakalayan yöntemler) teknik doğrulama yapın; tek bir teste güvenmeyin.

Özetle, DALL-E 3’ün ya da Midjourney’in ürettiği sahneler çok gerçekçi görünse de modeller gerçek dünyanın 3B ışık–geometri ilişkisini eksiksiz kurmakta zorlanıyor. Mantıksal tutarsızlıkları adım adım kontrol etmek, özellikle gölge–yansıma ve perspektif ipuçlarına bakmak bugün hâlâ en sağlam yaklaşım.

Kaynak: www.techspot.com