OpenAI’ın son dönemde büyük ses getiren ve kullanıcıların sağlık verilerini analiz etmeyi vadeden “ChatGPT Health” özelliği, teknoloji dünyasında sert tartışmaları da beraberinde getirdi. Özellikle Apple Sağlık entegrasyonuyla kişisel sağlık asistanı olma iddiası taşıyan bu yeni yapay zeka hamlesi, Washington Post muhabiri Geoffrey Fowler’ın gerçekleştirdiği kapsamlı bir deneyle adeta duvara tosladı. MacRumors’un aktardığı detaylara göre, ChatGPT’nin sunduğu sağlık analizleri sadece hatalı olmakla kalmıyor, aynı zamanda kullanıcıyı gereksiz yere paniğe sevk edecek düzeyde tutarsızlıklar barındırıyor.
Deneyin odağında, Fowler’ın son on yılı kapsayan devasa Apple Watch veri seti yer alıyor. Muhabir, yaklaşık 29 milyon adım ve 6 milyon kalp atış hızı ölçümünü içeren bu derinlikli veriyi ChatGPT’ye emanet ederek kardiyak sağlığı hakkında bir değerlendirme yapmasını istedi. Sonuç ise tam anlamıyla bir şok dalgası yarattı: Yapay zeka, Fowler’ın kalp sağlığına “F” (en başarısız not) vererek ciddi bir tıbbi sorun imasında bulundu.

Ancak asıl çarpıcı olan, bu korkutucu tablonun gerçek tıp dünyasındaki karşılığıydı. Fowler, yapay zekanın bu “felaket senaryosu” üzerine kendi doktoruna başvurduğunda, doktorun cevabı netti: “Tamamen asılsız.” Hatta doktoru, Fowler’ın kalp krizi veya benzeri bir risk grubunda yer almadığını, sigorta şirketlerinin yapay zekanın iddialarını çürütmek için yapılacak ek testleri bile “gereksiz” bulup karşılamayacağını belirtti. Scripps Araştırma Enstitüsü’nden ünlü kardiyolog Eric Topol da sürece dahil oldu ve ChatGPT’nin analizlerini “temelsiz” olarak nitelendirerek, bu tür modellerin tıbbi tavsiye verme konusunda henüz olgunlaşma seviyesinde olmadığını vurguladı.
Raporun en dikkat çekici kısımlarından biri de sistemin tutarsızlığıydı. Fowler aynı verilerle aynı soruyu birkaç kez tekrarladığında, ChatGPT’nin verdiği not “F” ile “B” arasında çılgınca gidip geldi. Daha da kötüsü, yapay zeka elinde tüm tıbbi kayıtlar ve profil bilgileri olmasına rağmen, kullanıcının yaşını ve cinsiyetini unutmak gibi temel mantık hataları sergiledi. Benzer bir test Anthropic’in Claude modeli üzerinde de denendi; Claude “C” notuyla biraz daha temkinli davransa da, o da Apple Watch verilerinin klinik sınırlamalarını doğru analiz etmeyi başaramadı.
Bu durum, teknoloji devlerinin “biz teşhis koymuyoruz, sadece bilgi veriyoruz” şeklindeki yasal savunmalarının etik boyutunu yeniden gündeme taşıdı. FDA’nın (Amerikan Gıda ve İlaç Dairesi) inovasyonu engellememek adına “yoldan çekilme” stratejisi izlemesi, uzmanları endişelendiriyor. Dr. Topol, bu araçların insanları ya boş yere dehşete düşüreceği ya da gerçekten hasta olanlara sahte bir güven hissi vererek tedaviyi geciktireceği konusunda uyarıyor.
OpenAI kanadı ise eleştirilere, ChatGPT Health’in şu an için sadece sınırlı bir beta grubuna açık olduğunu ve bu süreçteki geri bildirimlerle sistemi iyileştireceklerini söyleyerek yanıt verdi. Şirketin Başkan Yardımcısı Ashley Alexander, bekleme listesi stratejisinin temel amacının bu tarz tutarsızlıkları yaygın kullanıma geçmeden önce gidermek olduğunu belirtti. Ancak ortaya çıkan bu “F” karnesi, yapay zekanın hayat kurtaran bir asistandan ziyade, veri yığınları arasında kaybolan bir panik makinesi olma riskini hala taşıdığını kanıtlar nitelikte.
Kaynak: MacRumors