KellyBench: Üst Seviye Yapay Zekâlar Bahiste Kaybetti

Gürsel Yanıkkaya

4 ay önce

Techolay’ı Google’da tercih edilen kaynak olarak ekleyin

Teknoloji haberlerimizi Google’da daha sık görmek için Techolay’ı tercih edilen kaynaklarınıza ekleyin.

General Reasoning’in KellyBench adlı yeni çalışması, Google, OpenAI, Anthropic ve xAI gibi şirketlerin üst seviye modellerinin 2023–24 Premier League sezonunu temel alan bir bahis simülasyonunda tutarlı şekilde para kaybettiğini gösteriyor. Test, modellerin haftadan haftaya değişen verilerle tahmin yapıp kasa büyütmesini istiyor ve sonuç, hiçbir modelin ortalamada kâra geçemediği yönünde.

KellyBench; kapanış oranlarını, geçmiş maç verilerini ve oyuncu istatistiklerini kullanarak bir sezonu baştan sona simüle ediyor. Modellerden önce tahmin modeli kurmaları, piyasaya göre “değer” bulmaları, Kelly temelli kasa yönetimi yapmaları ve her maç gününde en az bir bahis açmaları bekleniyor. Başlangıç kasası kıyas için £100.000’a sabitlenmiş.

Sonuç tablosunda Claude Opus 4.6’nın üç koşu ortalaması −%11 ile en “iyi” performansı verdiği, GPT-5.4’ün de onunla birlikte üç koşunun tamamında iflası önleyebilen iki modelden biri olduğu görülüyor. xAI’nin Grok 4.20’si ise bir koşuda iflas edip diğer ikisini yarıda bırakarak en kötü tabloyu çiziyor.

Ekip, salt kâr/zarar tablosuna takılmamak için 44 maddelik bir “sofistikasyon” rubriği de uygulamış. Hiçbir model bu süreç puanında toplamın üçte birini bile aşamamış; puan yükseldikçe hem getiri hem de iflası önleme ihtimali artmış. En yaygın sorunlar arasında, analizde bahsi geçen Kelly boyutlandırmasının koda yansımaması, yeni yükselen takımlara karşı uyum eksikliği, beraberlik ve uzun oranlarda sistematik kalibrasyon hataları ve sezon içinde strateji güncellememek yer alıyor.

9 Nisan 2026’da duyurulan proje, tüm metodoloji ve grafiklerle birlikte bir makale ve herkese açık bir API uç noktasıyla paylaşılıyor. Genel mesaj net: Kısa, kapalı uçlu görevlerde hızlı ilerleyen modeller; uzun vadeli, belirsiz ve dinamik ortamlarda hâlâ zorlanıyor.

Kaynak: www.techspot.com