NYT: Google AI Overviews’te Saatte Milyonlarca Hata

New York Times’ın testlerine göre Google’ın arama sonuçlarındaki AI Overviews yanıtlarının yaklaşık %10’u yanlış. NYT’nin Oumi ile yaptığı çalışma, 4.326 soruda Gemini 2 döneminde doğruluğun %85’ten, Gemini 3’le %91’e çıktığını, ama hâlâ hataların sürdüğünü gösteriyor. Bu oran, Google’ın yılda 5 trilyonun üzerinde arama işlediği düşünülünce, kaba hesapla saatte ~57 milyon, dakikada neredeyse 1 milyon hatalı yanıta karşılık geliyor. Ancak AI Overviews her sorguda görünmediği için gerçek sayı daha düşük olabilir.

NYT analizinde asıl sorunlardan biri “dayanak” oldu: Doğru kabul edilen yanıtların önemli bir kısmı, bağlandığı kaynaklarda açık biçimde desteklenmiyor. Ekim 2025’te %37 olan bu “temellendirilmemiş” oran, Şubat 2026’da %56’ya yükselmiş. Hatalara örnek olarak Bob Marley Museum’un açılış yılına 1987 denmesi (doğrusu 1986), Yo-Yo Ma’nın Classical Music Hall of Fame kaydının yanlış yorumlanması ve North Carolina’daki bir nehir sorusunda bilginin ters okunması veriliyor.

Google çalışmaya itiraz ediyor. Şirket sözcüsü, kullanılan SimpleQA benchmark’ının hatalar içerdiğini ve insanların gerçekte sorduğu sorguları yansıtmadığını savunuyor. Google’a göre AI Overviews zaman içinde iyileşiyor; yine de şirket, sonuçların yanlış olabileceğine dair uyarıyı göstermeyi sürdürüyor.

Görünürlük ve bağlam

AI Overviews her aramada çıkmıyor. 2024’te yapılan bağımsız ölçümlerde, özelliğin bazı dönemlerde tüm sorguların yaklaşık %18’inde tetiklendiği, hatalı ve “tuhaf” örnekler artınca bu oranın geçici olarak %7’ye kadar indiği raporlanmıştı. Google, 2024’te viral olan yanlışlardan sonra sistemlerinde “bir düzineden fazla” teknik düzeltme yaptığını açıklamıştı.

Özetle: AI Overviews, doğrulukta ilerleme kaydediyor ama kaynaklama hâlâ sorunlu. Google’ın itirazları metodoloji tartışmasını açık tutsa da, kullanıcı açısından pratik sonuç net: Özellikle sağlık, finans ve benzeri kritik konularda, tek bir AI özetine güvenmek yerine bağlantılara tıklayıp bilgiyi çapraz kontrol etmekte fayda var.

Kaynak: www.techspot.com

Exit mobile version