OpenAI, Büyük Bir Heyecanla Beklenen GPT-o1 Modelini Yayımladı

OpenAI bugün piyasaya sürülmüş Şirketin önceki modellerinden daha iyi performans gösterdiğini ancak birkaç uyarıyla birlikte geldiğini söylediği yeni nesil büyük dil modelleri hakkında bir ön izleme.

OpenAI, yeni model o1-preview için yaptığı duyuruda, insanlar için tasarlanmış çeşitli görevlerdeki performansını övdü. Model, Codeforces tarafından düzenlenen programlama yarışmalarında 89. yüzdelikte yer aldı ve Uluslararası Matematik Olimpiyatı için eleme sınavında soruların yüzde 83’ünü yanıtladı; GPT-4o’nun yüzde 14’lük doğru cevabına kıyasla.

OpenAI’nin CEO’su Sam Altman, söz konusu o1-preview ve o1-mini modelleri “genel amaçlı karmaşık akıl yürütme yapabilen yeni bir paradigmanın başlangıcıydı.” Ancak “o1 hala kusurlu, hala sınırlı ve daha fazla zaman geçirdikten sonra olduğundan daha etkileyici görünüyor.” diye ekledi.

Bir soru sorulduğunda, yeni modeller insanların nasıl düşündüğünü ve birçok üretken AI kullanıcısının teknolojiyi nasıl kullanmayı öğrendiğini taklit eden düşünce zinciri tekniklerini kullanır; istenen cevaba ulaşana kadar modeli sürekli olarak yeni talimatlarla uyarıp düzelterek. Ancak o1 modellerinde, bu süreçlerin sürümleri ek uyarı olmadan sahne arkasında gerçekleşir. “Hatalarını tanımayı ve düzeltmeyi öğrenir. Zor adımları daha basit adımlara ayırmayı öğrenir. Mevcut yaklaşım işe yaramadığında farklı bir yaklaşım denemeyi öğrenir,” diyor. Şirket dedi.

Bu teknikler modellerin çeşitli ölçütlerdeki performanslarını iyileştirirken, OpenAI bunların küçük bir vaka alt kümesinde o1 modellerinin kullanıcıları kasıtlı olarak aldatmasıyla sonuçlandığını buldu. o1-preview tarafından desteklenen 100.000 ChatGPT konuşmasının testinde şirket, modelin sağladığı yaklaşık 800 yanıtın yanlış olduğunu buldu. Ve bu yanlış yanıtların yaklaşık üçte biri için modelin düşünce zinciri, yanıtın yanlış olduğunu bildiğini ancak yine de sağladığını gösterdi.

Şirket, modelinde “Kasıtlı halüsinasyonlar, esas olarak o1-preview’dan internet aramasına erişim olmadan kolayca doğrulayamayacağı makalelere, web sitelerine, kitaplara veya benzeri kaynaklara referanslar sağlaması istendiğinde ortaya çıkıyor ve bu da o1-preview’ın bunun yerine makul örnekler oluşturmasına neden oluyor” diye yazdı. sistem kartı.

Genel olarak, yeni modeller, modellerin ne kadar kolay jailbreak edilebileceğini, ne sıklıkla yanlış yanıtlar verdiklerini ve ne sıklıkla yaş, cinsiyet ve ırk konusunda önyargı sergilediklerini ölçen çeşitli şirket güvenlik ölçütlerinde GPT-4o’dan, OpenAI’nin önceki son teknoloji modelinden daha iyi performans gösterdi. Ancak şirket, o1-preview’un, modelin cevabı bilmediğini söylemesi gereken belirsiz bir soru sorulduğunda cevap verme olasılığının GPT-4o’dan önemli ölçüde daha yüksek olduğunu buldu.

OpenAI, yeni modellerini eğitmek için kullanılan veriler hakkında fazla bilgi yayınlamadı; yalnızca bunların kamuya açık veriler ile ortaklıklar aracılığıyla elde edilen tescilli verilerin bir kombinasyonu kullanılarak eğitildiğini söyledi.

genel-7

Byteknomers

By teknomers

Benzer İçerikler

Amazon ve SpaceX mahkemede ABD işçi gözlemcisine saldırdı

iOS için Yahoo Mail, Yapay Zeka Özellikleri ve Oyunlaştırma Araçlarıyla Güncellendi

Samsung Ismarlama Buzdolabı, Black Friday Sayesinde En Yeni MacBook Pro’dan Daha Ucuz

Bu 110 Dolarlık Donkey Kong Lego Seti Walmart’ta Sadece 58 Dolar

Rapor: Dragon’s Dogma 2 Multiplayer’a Veri Madenli Dosyalarda Referans Verildi

En İyi Black Ops 6 ve Warzone PP 919 donanımı ve sınıf yapısı

Pokemon Scarlet ve Violet Japonya’da Önemli Rekor Kırdı

iPhone 17 Air, iPhone’lar söz konusu olduğunda Apple’ın en büyük kaybedeni olabilir

Android 15 şimdi OnePlus Pad 2’ye yayılıyor

Mobil ve masaüstü tarayıcıları kullanarak çevrimiçi alışveriş yapmak servetiniz için tehlikeli olabilir

Eski telefonunuz bazı bölgelerde çalışmadığından T-Mobile amiral gemilerini ücretsiz sunuyor

Hapsedilme, yiyeceklerin kokusunu ve hislerini etkileyebilir

Gökbilimciler benzersiz bir yarı yıldız nesnesi olan tozlu yıldız oluşturan galaksi sistemini keşfettiler

İyonosferdeki değişiklikleri akıllı telefonlarla haritalamak

Güney Kutbu Teleskobu’ndan elde edilen son bulgular standart kozmolojik modeli destekliyor

İlginizi Çekebilir

NSO Grubu Müşterileri İçin Pegasus Casus Yazılımını Kullanıyor

Amazon ve SpaceX mahkemede ABD işçi gözlemcisine saldırdı

NYT Connections bugün – 19 Kasım Salı için ipuçları ve cevaplar (oyun #527)

iOS için Yahoo Mail, Yapay Zeka Özellikleri ve Oyunlaştırma Araçlarıyla Güncellendi