OpenAI bugün piyasaya sürülmüş Şirketin önceki modellerinden daha iyi performans gösterdiğini ancak birkaç uyarıyla birlikte geldiğini söylediği yeni nesil büyük dil modelleri hakkında bir ön izleme.
OpenAI, yeni model o1-preview için yaptığı duyuruda, insanlar için tasarlanmış çeşitli görevlerdeki performansını övdü. Model, Codeforces tarafından düzenlenen programlama yarışmalarında 89. yüzdelikte yer aldı ve Uluslararası Matematik Olimpiyatı için eleme sınavında soruların yüzde 83’ünü yanıtladı; GPT-4o’nun yüzde 14’lük doğru cevabına kıyasla.
OpenAI’nin CEO’su Sam Altman, söz konusu o1-preview ve o1-mini modelleri “genel amaçlı karmaşık akıl yürütme yapabilen yeni bir paradigmanın başlangıcıydı.” Ancak “o1 hala kusurlu, hala sınırlı ve daha fazla zaman geçirdikten sonra olduğundan daha etkileyici görünüyor.” diye ekledi.
Bir soru sorulduğunda, yeni modeller insanların nasıl düşündüğünü ve birçok üretken AI kullanıcısının teknolojiyi nasıl kullanmayı öğrendiğini taklit eden düşünce zinciri tekniklerini kullanır; istenen cevaba ulaşana kadar modeli sürekli olarak yeni talimatlarla uyarıp düzelterek. Ancak o1 modellerinde, bu süreçlerin sürümleri ek uyarı olmadan sahne arkasında gerçekleşir. “Hatalarını tanımayı ve düzeltmeyi öğrenir. Zor adımları daha basit adımlara ayırmayı öğrenir. Mevcut yaklaşım işe yaramadığında farklı bir yaklaşım denemeyi öğrenir,” diyor. Şirket dedi.
Bu teknikler modellerin çeşitli ölçütlerdeki performanslarını iyileştirirken, OpenAI bunların küçük bir vaka alt kümesinde o1 modellerinin kullanıcıları kasıtlı olarak aldatmasıyla sonuçlandığını buldu. o1-preview tarafından desteklenen 100.000 ChatGPT konuşmasının testinde şirket, modelin sağladığı yaklaşık 800 yanıtın yanlış olduğunu buldu. Ve bu yanlış yanıtların yaklaşık üçte biri için modelin düşünce zinciri, yanıtın yanlış olduğunu bildiğini ancak yine de sağladığını gösterdi.
Şirket, modelinde “Kasıtlı halüsinasyonlar, esas olarak o1-preview’dan internet aramasına erişim olmadan kolayca doğrulayamayacağı makalelere, web sitelerine, kitaplara veya benzeri kaynaklara referanslar sağlaması istendiğinde ortaya çıkıyor ve bu da o1-preview’ın bunun yerine makul örnekler oluşturmasına neden oluyor” diye yazdı. sistem kartı.
Genel olarak, yeni modeller, modellerin ne kadar kolay jailbreak edilebileceğini, ne sıklıkla yanlış yanıtlar verdiklerini ve ne sıklıkla yaş, cinsiyet ve ırk konusunda önyargı sergilediklerini ölçen çeşitli şirket güvenlik ölçütlerinde GPT-4o’dan, OpenAI’nin önceki son teknoloji modelinden daha iyi performans gösterdi. Ancak şirket, o1-preview’un, modelin cevabı bilmediğini söylemesi gereken belirsiz bir soru sorulduğunda cevap verme olasılığının GPT-4o’dan önemli ölçüde daha yüksek olduğunu buldu.
OpenAI, yeni modellerini eğitmek için kullanılan veriler hakkında fazla bilgi yayınlamadı; yalnızca bunların kamuya açık veriler ile ortaklıklar aracılığıyla elde edilen tescilli verilerin bir kombinasyonu kullanılarak eğitildiğini söyledi.