OpenAI, GPT-5’in birçok işte insanlarla rekabet edebileceğini açıkladı.

OpenAI’nin Yeni Benchmark’ı: GDPval

OpenAI, yeni benchmark olarak bilinen GDPval’ı tanıtarak, yapay zeka modellerinin insan profesyonellerle karşılaştırmalı performansını değerlendirmekte önemli bir adım atmıştır. Bu test, OpenAI’nin yapay genel zeka (AGI) misyonunun temel bir parçası olarak, AI sistemlerinin ekonomik açıdan değerli işlerde insanları ne kadar geçebileceğini anlamaya yönelik bir çabadır.

Contents

OpenAI’nin Yeni Benchmark’ı: GDPval
GPT-5 ve Claude Opus 4.1’in Performansı
GDPval’ın Temelleri
Anahtar Sonuçlar ve Bulgular
Yapay Zeka ve İnsan İş Gücü
Silicon Valley’de Yapay Zeka Benchmark’ları
Gelecekteki Testler ve Gelişmeler

GPT-5 ve Claude Opus 4.1’in Performansı

OpenAI’nin yaptığı araştırmaya göre, GPT-5 modeli ve Anthropic’in Claude Opus 4.1 modeli, sektör uzmanlarının ürettiği iş kalitesine yaklaşmaktadır. Ancak bu, yapay zeka uygulamalarının insanların işlerini derhal devralacağı anlamına gelmemektedir. OpenAI, GDPval’ın yalnızca, insanların gerçek işlerinde yaptığı sınırlı görevleri kapsadığını kabul etmektedir. Bu test, şirketin AI’nin ilerlemesini ölçme yöntemlerinden biridir.

GDPval’ın Temelleri

GDPval, ABD’nin gayri safi yurtiçi hasılasına katkı yapan dokuz sektörü temel alır. Bunlar arasında sağlık hizmetleri, finans, üretim ve hükümet gibi alanlar yer almaktadır. Benchmark, yazılım mühendislerinden hemşirelere ve gazetecilere kadar 44 meslek üzerinde bir AI modelinin performansını test etmektedir.

İlk test versiyonu GDPval-v0’da, OpenAI deneyimli profesyonellerden AI tarafından üretilmiş raporları diğer profesyoneller tarafından hazırlananlarla karşılaştırarak en iyi olanı seçmelerini istemiştir. Örneğin, bir talep yatırım bankacılarından son mil teslimat endüstrisi için rakip analiz raporu oluşturmasını istemiştir.

Anahtar Sonuçlar ve Bulgular

OpenAI’ye ait GPT-5-high, ek bir işlem gücüne sahip bir versiyondur ve bu model sektör uzmanlarına kıyasla %40.6 oranında daha iyi ya da eşit derecede iyi sonuçlar almıştır. Öte yandan, Claude Opus 4.1, görevlerin %49’unda sektör uzmanlarına kıyasla daha iyi veya eşit sonuç elde etmiştir. OpenAI, Claude’nun bu kadar yüksek bir puan almasının nedeninin tamamen grafik tasarım kabiliyetleri olduğunu belirtmektedir.

OpenAI’nin sağladığı verilere göre, çalışma profesyonellerinin çoğunun yalnızca araştırma raporları sunmadığı da göz önünde bulundurulmalıdır. Bu durum, GDPval-v0’in sınırlı kapsamını ortaya koymaktadır. Şirket, gelecekte daha kapsamlı testler oluşturmayı planladığını ifade etmektedir.

Yapay Zeka ve İnsan İş Gücü

OpenAI’nin baş ekonomisti Dr. Aaron Chatterji, GDPval sonuçlarının iş gücündeki bireylerin artık yapay zeka modellerini kullanarak daha anlamlı işlere odaklanabileceklerini gösterdiğini belirtmiştir. Dr. Chatterji, “Model bazı konularda iyi hale geldikçe, bu pozisyonlarda çalışanlar, iş yüklerini hafifletmek için bu modelleri kullanarak potansiyel olarak daha değerli şeyler yapabilirler,” demiştir.

Tejal Patwardhan, OpenAI’nin evaluasyon lideri, GDPval üzerindeki ilerlemenin hızından etkilenmiştir. OpenAI’nin GPT-4o modeli, yaklaşık 15 ay önce piyasaya sürüldüğünde %13.7 oranında bir başarı elde etmiştir. Şimdi ise GPT-5, bu başarıyı neredeyse üç katına çıkarmıştır.

Silicon Valley’de Yapay Zeka Benchmark’ları

Silicon Valley’de yapay zeka modellerinin ilerlemesini ölçmek için bir dizi benchmark kullanılmaktadır. En popüler olanlar arasında AIME 2025 (rekabetçi matematik problemleri testi) ve GPQA Diamond (doktoralı seviyedeki bilim soruları testi) bulunmaktadır. Ancak bazı AI modellerinin bu benchmarklarda doygunluk seviyesine yaklaştığı belirtilmektedir.

Bununla birlikte, birçok AI araştırmacısı, yapay zekanın gerçek dünya görevleri üzerindeki yeterliliğini ölçmek için daha iyi testler gereksiniminde bulunmaktadır. GDPval gibi benchmarklar, OpenAI’nin mühendislik modellerinin çeşitli sanayi alanlarında değerli olduğunu kanıtlamaya çalıştığı bu tartışmada giderek daha önemli hale gelebilir.

Gelecekteki Testler ve Gelişmeler

OpenAI, mevcut testlerin sınırlı olduğunu kabul etmekte ve daha kapsamlı versiyonlar geliştirmeyi hedeflemektedir. Bu daha kapsamlı testler, çeşitli sanayi dallarını ve etkileşimli iş akışlarını göz önüne alarak sistemlerin gerçekçi bir şekilde değerlendirilmesine olanak tanıyabilir. Ancak şu an için GDPval, önemli bir ilerlemeyi ortaya koymakta ve yapay zekanın çalışma hayatında nasıl bir rol oynayacağını göstermektedir.

Yapay zeka ve insan iş gücünün etkileşimi, önümüzdeki yıllarda daha derinlemesine incelemeler ve araştırmalar gerektirecek bir alan olarak karşımıza çıkmaktadır.

Güncel Teknoloji Haberleri – 1

OpenAI’nin Yeni Benchmark’ı: GDPval

GPT-5 ve Claude Opus 4.1’in Performansı

GDPval’ın Temelleri

Anahtar Sonuçlar ve Bulgular

Yapay Zeka ve İnsan İş Gücü

Silicon Valley’de Yapay Zeka Benchmark’ları

Gelecekteki Testler ve Gelişmeler

Sanal Medya

Son Eklenenler

Kripto Fonlu Çin Peptit Laboratuvarlarının Hızla Büyüme Sırrı Nedir?

Retro Oyun Tutkunu: Sega Genesis’i Plak Çalarsız Oyun Yükleme Denemesi

Üssünü Koru: Anime Kodlarıyla Stratejik Hamleler

Anime Kodlarıyla Üssünü Koru: Stratejik Oyun Fırsatları

Kritik Uyarı: CISA, SolarWinds Serv-U Güvenlik Açığını KEV Kataloğuna Ekledi

Stellar Blade’den Heyecan Verici Kan Yağmuru Duyuruldu!

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer