OpenAI’nin Yeni Benchmark’ı: GDPval
OpenAI, yeni benchmark olarak bilinen GDPval’ı tanıtarak, yapay zeka modellerinin insan profesyonellerle karşılaştırmalı performansını değerlendirmekte önemli bir adım atmıştır. Bu test, OpenAI’nin yapay genel zeka (AGI) misyonunun temel bir parçası olarak, AI sistemlerinin ekonomik açıdan değerli işlerde insanları ne kadar geçebileceğini anlamaya yönelik bir çabadır.
GPT-5 ve Claude Opus 4.1’in Performansı
OpenAI’nin yaptığı araştırmaya göre, GPT-5 modeli ve Anthropic’in Claude Opus 4.1 modeli, sektör uzmanlarının ürettiği iş kalitesine yaklaşmaktadır. Ancak bu, yapay zeka uygulamalarının insanların işlerini derhal devralacağı anlamına gelmemektedir. OpenAI, GDPval’ın yalnızca, insanların gerçek işlerinde yaptığı sınırlı görevleri kapsadığını kabul etmektedir. Bu test, şirketin AI’nin ilerlemesini ölçme yöntemlerinden biridir.
GDPval’ın Temelleri
GDPval, ABD’nin gayri safi yurtiçi hasılasına katkı yapan dokuz sektörü temel alır. Bunlar arasında sağlık hizmetleri, finans, üretim ve hükümet gibi alanlar yer almaktadır. Benchmark, yazılım mühendislerinden hemşirelere ve gazetecilere kadar 44 meslek üzerinde bir AI modelinin performansını test etmektedir.
İlk test versiyonu GDPval-v0’da, OpenAI deneyimli profesyonellerden AI tarafından üretilmiş raporları diğer profesyoneller tarafından hazırlananlarla karşılaştırarak en iyi olanı seçmelerini istemiştir. Örneğin, bir talep yatırım bankacılarından son mil teslimat endüstrisi için rakip analiz raporu oluşturmasını istemiştir.
Anahtar Sonuçlar ve Bulgular
OpenAI’ye ait GPT-5-high, ek bir işlem gücüne sahip bir versiyondur ve bu model sektör uzmanlarına kıyasla %40.6 oranında daha iyi ya da eşit derecede iyi sonuçlar almıştır. Öte yandan, Claude Opus 4.1, görevlerin %49’unda sektör uzmanlarına kıyasla daha iyi veya eşit sonuç elde etmiştir. OpenAI, Claude’nun bu kadar yüksek bir puan almasının nedeninin tamamen grafik tasarım kabiliyetleri olduğunu belirtmektedir.
OpenAI’nin sağladığı verilere göre, çalışma profesyonellerinin çoğunun yalnızca araştırma raporları sunmadığı da göz önünde bulundurulmalıdır. Bu durum, GDPval-v0’in sınırlı kapsamını ortaya koymaktadır. Şirket, gelecekte daha kapsamlı testler oluşturmayı planladığını ifade etmektedir.
Yapay Zeka ve İnsan İş Gücü
OpenAI’nin baş ekonomisti Dr. Aaron Chatterji, GDPval sonuçlarının iş gücündeki bireylerin artık yapay zeka modellerini kullanarak daha anlamlı işlere odaklanabileceklerini gösterdiğini belirtmiştir. Dr. Chatterji, “Model bazı konularda iyi hale geldikçe, bu pozisyonlarda çalışanlar, iş yüklerini hafifletmek için bu modelleri kullanarak potansiyel olarak daha değerli şeyler yapabilirler,” demiştir.
Tejal Patwardhan, OpenAI’nin evaluasyon lideri, GDPval üzerindeki ilerlemenin hızından etkilenmiştir. OpenAI’nin GPT-4o modeli, yaklaşık 15 ay önce piyasaya sürüldüğünde %13.7 oranında bir başarı elde etmiştir. Şimdi ise GPT-5, bu başarıyı neredeyse üç katına çıkarmıştır.
Silicon Valley’de Yapay Zeka Benchmark’ları
Silicon Valley’de yapay zeka modellerinin ilerlemesini ölçmek için bir dizi benchmark kullanılmaktadır. En popüler olanlar arasında AIME 2025 (rekabetçi matematik problemleri testi) ve GPQA Diamond (doktoralı seviyedeki bilim soruları testi) bulunmaktadır. Ancak bazı AI modellerinin bu benchmarklarda doygunluk seviyesine yaklaştığı belirtilmektedir.
Bununla birlikte, birçok AI araştırmacısı, yapay zekanın gerçek dünya görevleri üzerindeki yeterliliğini ölçmek için daha iyi testler gereksiniminde bulunmaktadır. GDPval gibi benchmarklar, OpenAI’nin mühendislik modellerinin çeşitli sanayi alanlarında değerli olduğunu kanıtlamaya çalıştığı bu tartışmada giderek daha önemli hale gelebilir.
Gelecekteki Testler ve Gelişmeler
OpenAI, mevcut testlerin sınırlı olduğunu kabul etmekte ve daha kapsamlı versiyonlar geliştirmeyi hedeflemektedir. Bu daha kapsamlı testler, çeşitli sanayi dallarını ve etkileşimli iş akışlarını göz önüne alarak sistemlerin gerçekçi bir şekilde değerlendirilmesine olanak tanıyabilir. Ancak şu an için GDPval, önemli bir ilerlemeyi ortaya koymakta ve yapay zekanın çalışma hayatında nasıl bir rol oynayacağını göstermektedir.
Yapay zeka ve insan iş gücünün etkileşimi, önümüzdeki yıllarda daha derinlemesine incelemeler ve araştırmalar gerektirecek bir alan olarak karşımıza çıkmaktadır.


