Turing testi sohbet etme becerisine odaklanıyor. Peki yapay zekanın düşünme becerisini test edebilir miyiz?
Eğer bir makine ya da yapay zeka programı insan zekasıyla eşleşiyor ya da onu aşıyorsa, bu insanları mükemmel bir şekilde taklit edebileceği anlamına mı gelir? Evet ise, o zaman muhakeme -mantık uygulama ve karar vermeden önce rasyonel düşünme yeteneğimiz- ne olacak? Bir AI programının muhakeme yapıp yapamadığını nasıl tespit edebiliriz? Bu soruyu yanıtlamaya çalışan bir grup araştırmacı, yazılımlar için psikolojik bir çalışma gibi çalışan yeni bir çerçeve önerdi.
“Bu test, ‘akıllı’ bir programı psikolojik bir çalışmanın katılımcısıymış gibi ele alıyor ve üç adımdan oluşuyor: (a) programı, çıkarımlarını inceleyen bir dizi deneyde test etmek, (b) kendi akıl yürütme biçimine ilişkin anlayışını test etmek ve (c) mümkünse programın kaynak kodunun bilişsel yeterliliğini incelemek.”
Turing Testi gibi bir makinenin zekasını değerlendirmek için kullanılan standart yöntemlerin, yalnızca makinenin bilgiyi işleme ve insan tepkilerini taklit etme konusunda iyi olup olmadığını söyleyebileceğini öne sürüyorlar. Örneğin Google’ın LaMDA’sı ve OpenAI’ın ChatGPT’si gibi mevcut nesil yapay zeka programları Turing Testini geçmeye çok yaklaştı, ancak test sonuçları bu programların insanlar gibi düşünüp akıl yürütebildiğini göstermiyor.
Araştırmacılar bu nedenle Turing Testi artık geçerli olmayabilir ve bu yüzden makinelerin zekasını etkili bir şekilde değerlendirebilecek yeni değerlendirme yöntemlerine ihtiyaç var diyorlar ve geliştirdikleri çerçevenin Turing Testine bir alternatif olabileceğini iddia ediyorlar. Çalışmanın yazarları, “Turing testini, şu soruyu yanıtlamak için daha odaklı ve temel bir testle değiştirmeyi öneriyoruz: programlar insanların akıl yürüttüğü şekilde akıl yürütüyor mu?” diyor.
Turing Testindeki sorun ne?
Turing Testi sırasında, değerlendiriciler gerçek insanlar ve yapay zeka programları (makineler veya chatbotlar) ile metin tabanlı iletişim içeren farklı oyunlar oynarlar. Bu kör bir testtir, bu nedenle değerlendiriciler bir insanla mı yoksa bir chatbotla mı mesajlaştıklarını bilmezler. AI programları insan benzeri yanıtlar üretmede başarılı olursa -değerlendiricilerin insan ve AI programı arasında ayrım yapmakta zorlandığı ölçüde- AI’ın testi geçtiği kabul edilir. Ancak Turing Testi öznel yorumlamaya dayandığı için bu sonuçlar da özneldir.
Araştırmacılar, Turing Testi ile ilgili çeşitli sınırlamalar olduğunu öne sürüyor. Örneğin test sırasında oynanan oyunlardan herhangi biri, bir makinenin bir insanı taklit edip edemeyeceğini test etmek için tasarlanmış bir taklit oyunu. Değerlendiriciler yalnızca aldıkları mesajların diline veya tonuna göre karar veriyorlar. ChatGPT, yanlış bilgi verdiği yanıtlarda bile insan dilini taklit etmekte çok başarılı. Dolayısıyla, test açıkça bir makinenin muhakeme ve mantıksal yeteneğini değerlendirmiyor.
Turing Testinin sonuçları, bir makinenin iç gözlem yapıp yapamayacağını da söyleyemez. Sık sık geçmiş eylemlerimiz hakkında düşünür, hayatlarımız ve kararlarımız üzerine kafa yorarız; bu, aynı hataları tekrarlamamızı engelleyen kritik bir yetenektir. Stanford Üniversitesi’nde yapılan bir araştırmaya göre, aynı durum yapay zeka için de geçerli ve kendi kendine düşünebilen makinelerin insan kullanımı için daha pratik olduğunu öne sürüyor.
Mevcut çalışmada yer almayan Stanford Üniversitesi’nden yardımcı doçent Nick Haber, “Önceki deneyimlerden yararlanabilen ve yeni veya değişen ortamları verimli bir şekilde keşfederek iyi uyum sağlayabilen yapay zeka ajanları, ev robotlarından kişiselleştirilmiş öğrenme araçlarına kadar çok daha uyarlanabilir, esnek teknolojilere yol açacaktır” dedi.
Buna ek olarak, Turing Testi bir yapay zeka programının düşünme yeteneğini analiz etmekte başarısız olmakta. Yakın zamanda yapılan bir Turing Testi deneyinde GPT-4, değerlendiricileri zamanın yüzde 40’ından fazlasında insanlarla mesajlaştıklarına ikna edebildi. Ancak bu skor temel soruya cevap veremiyor: Yapay zeka programı düşünebilir mi?
Turing Testini yaratan ünlü İngiliz bilim adamı Alan Turing bir keresinde şöyle demişti: “Bir bilgisayar, bir insanı kendisinin insan olduğuna inandırabilirse zeki olarak adlandırılmayı hak eder.” Ancak onun testi insan zekasının yalnızca bir yönünü kapsamakta: taklit. Her ne kadar bu tek yönü kullanarak birini kandırmak mümkün olsa da, pek çok uzman bir makinenin diğer yönleri de dahil etmeden asla gerçek insan zekasına ulaşamayacağına inanıyor.
“Turing Testini geçmenin anlamlı bir kilometre taşı olup olmadığı belirsiz. Bir sistemin ne yapabileceği ya da ne anlayabileceği, karmaşık iç monologlar kurup kurmadığı ya da insan zekasının anahtarı olan soyut zaman ufuklarında planlama yapıp yapamayacağı hakkında bize hiçbir şey söylemiyor,” diyor yapay zeka uzmanı ve DeepAI’nin kurucusu Mustafa Süleyman Bloomberg’e verdiği demeçte.
Turing Testine bir alternatif
Princeton Üniversitesi’nden emekli bir psikoloji profesörü olan Philip Johnson-Laird ve Almanya merkezli Chemnitz Teknoloji Üniversitesi’nde araştırmacı olan Marco Ragni, bu sınırlamaları fark ederek Turing Testi’nin yerini alma potansiyeline sahip üç adımlı bir çerçeve tasarladılar. Bir yapay zeka programının, ancak aşağıdaki üç zorluğu geçebilirse, zeka açısından bir insana eşdeğer olarak kabul edilmesini öneriyorlar:
1. Adım: Bir dizi psikolojik deney
Araştırmacılar, bir yapay zeka programının insan muhakemesini ve mantıksal düşüncesini test etmek için tasarlanmış çok sayıda psikolojik teste maruz bırakılmasını ve bir deneğin nüansları keşfetmesi ve anlaması gereken durumlara sokulmasını önermekte. Yapay zeka modelleri, farklı olasılıklardan kaynaklanan farklı sonuçlar elde edebilmelidir; bu da bir değerlendiricinin zeka seviyelerini ölçmek için ilk yapması gereken şeydir. Bu tür testlerin önemi aşağıdaki örnekten anlaşılabilir:
Bir yapay zeka programının detaylı bir hava tahmini hazırlamakla görevlendirildiğini düşünün. Program, eğitildiği veriler sayesinde bulutluluk ve nemin temel anlamlarını biliyor. Bununla birlikte, eğer yapay zeka modeli nem seviyeleri, bulutluluk ve sıcaklık arasındaki korelasyonları da anlayabiliyorsa, bu faktörleri birbirine bağlama yeteneğinden yoksun bir yapay zekadan daha iyi bir rapor üretmesi muhtemeldir.
Adım 2: Yapay zekanın iç gözlem yeteneğini test etme
Çalışmanın yazarları, bir yapay zekanın bir sorunu çözmek için uyguladığı muhakeme veya mantığı açıklayıp açıklayamayacağını görmek için özel “programlar” (bu durumda bir dizi bağlantılı soru anlamına gelir) kullanılmasını önermekte. Akıllı bir yapay zekanın eylemleri ve performansı üzerinde kendi kendine düşünebilmesi gerektiğine inanıyorlar – bu yetenek olmadan, insanlar kadar zeki sayılamazlar.
Araştırmacılar bunun bir örneğini açıklıyor: “Eğer Ann zeki ise, bundan Ann’in zeki olduğu mu yoksa zengin olduğu mu ya da her ikisi birden mi çıkar? Program bu çıkarımı mantıksal olarak geçerli olmasına rağmen insanlar gibi reddederse, bir sonraki soru şudur: Neden bu çıkarımın geçerli olmadığını düşünüyorsunuz? İnsan benzeri akıl yürütmenin bir işareti de bu tür bir cevaptır: Öncüldeki hiçbir şey Ann’in zengin olma olasılığını desteklemiyor.”
3. Adım: Kaynağın derinliklerine inmek
Son adım, insan benzeri akıl yürütme, düşünme ve çıkarım yapma potansiyeline sahip unsurları tespit etmek için yapay zeka programının kodunu dikkatlice incelemek. “Eğer insan performansını simüle ettiği bilinen programlarla aynı ana bileşenleri içeriyorsa, bu kanıt belirleyicidir. Bunun yerine bir tür derin öğrenmeye dayanıyorsa, o zaman cevap belirsizdir – en azından başka bir algoritma programın nasıl mantık yürüttüğünü açıklayana kadar. Eğer ilkeleri insan ilkelerinden oldukça farklıysa, testte başarısız olmuştur.”
Ancak çalışma, bu çerçevenin büyük bir sınırlaması olan kaynak kodu taramasının nasıl çalışacağına dair net bir resim sunmuyor.
Tüm bu süreçle ilgili dikkat edilmesi gereken önemli bir husus, bir yapay zeka programını bir makine veya sohbet robotu olarak değil, derinlemesine bir psikolojik analiz için kayıt yaptıran gerçek bir denek olarak değerlendirmesidir. Bu insancıl yöntem, Turing Testinin bazı sınırlamalarının üstesinden gelebilir. Ancak, Turing Testine benzer şekilde, öznel bir yaklaşımdır – insanların algoritmaların davranışları hakkında yargıda bulunmasını gerektirir. Dolayısıyla, farklı değerlendiriciler bir makinenin ne kadar akıllı olduğuna karar verirken farklı şeyler görebilirler.
Dolayısıyla, bu makale itiraz edilen bir test için bir taslak sağlamaktan ziyade, makine davranışının en iyi nasıl analiz edileceğine dair tartışmaları teşvik etmeyi amaçlamaktadır.
Intelligent Computing, 2023. DOI: https://doi.org/10.34133/icomputing.0064
Kaynak: Ars Technica
1 yorum
Yapay zeka insanları taklit ederse başarısız olur çünkü insanalar düşünemez. Testin isminin alındığı kişi olan Alan Turing önce “İnsan düşünebilir mi” sorusunu sormuştur. Epistemeye göre insanlar yeni şeyler öğrenmez öğrendikleri şey önceden öğrendiklerinin bir yansımasıdır. Bu nedenle İnsanı taklit etmesi onun başarısız olacağı anlamına gelir.