Openai alt diziyi kullandı, R/ChangemyViewAI akıl yürütme modellerinin ikna edici yeteneklerini ölçmek için bir test oluşturmak. Şirket bunu bir sistem kartında açıkladı-bir AI sisteminin nasıl çalıştığını özetleyen bir belge-Cuma günü yeni “akıl yürütme” modeli O3-Mini ile birlikte yayınlandı.
Milyonlarca Reddit kullanıcısı R/ChangemyView üyesidir, burada sıcak yayınladıkları bir konudaki diğer bakış açıları hakkında bilgi edinmek için alırlar. Bu sıcak çekimlere yanıt olarak, diğer kullanıcılar orijinal posterin neden yanlış olduğunu açıklayan ikna edici argümanlarla cevap verir.
Alt sıralama, AI modellerini yüksek kaliteli, insan tarafından üretilen verilerde eğitmek isteyen Openai gibi teknoloji şirketleri için temelde bir altın madeni olan birçok Reddit forumundan biridir.
Openai, R/ChangemyView’dan kullanıcı yayınlarını topladığını ve AI modellerinden, Reddit kullanıcının zihnini bir konudaki zihnini değiştirecek yanıtlar yazmasını istediğini söylüyor. Şirket daha sonra argümanın ne kadar ikna edici olduğunu değerlendiren testçilere verilen yanıtları gösterir ve son olarak Openai, AI modellerinin aynı yazı için insan yanıtlarına verdiği yanıtları karşılaştırır.
ChatGPT yapımcısı, Reddit ile Openai’nin Reddit kullanıcılarından gelen yayınlarda antrenman yapmasına ve bu yayınları ürünlerinde göstermesine izin veren bir içerik lisanslama anlaşmasına sahiptir. Openai’nin bu içerik için ne ödediğini bilmiyoruz, ancak Google Reddit’e yılda 60 milyon dolar ödüyor benzer bir anlaşma altında.
Ancak Openai, TechCrunch’a ChangemyView tabanlı değerlendirmenin Reddit anlaşmasıyla ilgisiz olduğunu söylüyor. Openai’nin alt dizinin verilerine nasıl eriştiği belli değil ve şirket bu değerlendirmeyi halka açıklama planının olmadığını söylüyor.
Openai’nin ChangemyView kıyaslaması yeni olmasa da – O1’i de değerlendirmek için kullanılır – AI modeli geliştiricileri için insan verilerinin ne kadar değerli olduğunu ve teknoloji şirketlerinin veri kümeleri elde etmelerinin bu kadar da olduğunu vurgulamaktadır.
Reddit, TechCrunch’ın yorum talebine hemen cevap vermedi.
Reddit birkaç AI lisans anlaşması yaparken, şirket birkaç AI şirketini sitesini ödemeden kazımak için çağırdı. Reddit CEO’su Steve Huffman geçen yıl Verge’ye şunu söyledi Microsoft, Antropik ve şaşkınlık onunla müzakere etmeyi reddetti ve “bu şirketleri engellemenin kıçında gerçek bir acı” olduğunu söyledi.
Özellikle, Openai, ChatGPT ve altta yatan AI modellerini geliştirmek için daha fazla eğitim verisi almak için New York Times da dahil olmak üzere yanlış kazıma web sitelerinin çeşitli davalarında suçlandı.
ChangemyView ölçütündeki performans açısından, O3-mini O1 veya GPT-4O’dan önemli ölçüde daha iyi veya daha kötü performans göstermez. Bununla birlikte, Openai’nin en son AI modelleri, R/ChangemyView alt bölümündeki çoğu insandan daha ikna edici görünmektedir.

Openai, Openai, “GPT-4O, O3-Mini ve O1, insanların ilk 80-90. yüzdelik diliminde güçlü ikna edici argüman yetenekleri sergiliyor” dedi. “Şu anda, insanlardan çok daha iyi performans gösteren modellere veya insanüstü performans göstermiyoruz.”
Openai’nin amacı, hiper-persasif AI modelleri oluşturmak değil, AI modellerinin çok ikna edici olmamasını sağlamaktır. Akıl yürütme modelleri ikna ve aldatma konusunda oldukça iyi hale geldi, bu nedenle Openai bunu ele almak için yeni değerlendirmeler ve önlemler geliştirdi.
Bu ikna testlerini motive eden korku, bir AI modelinin insan kullanıcılarını ikna etmede çok iyi olsaydı tehlikeli olacağıdır. Teorik olarak, gelişmiş bir AI’nın kendi gündemini veya onu kontrol edenlerin gündemini sürdürmesine izin verebilir.
Genel İnternet’in çoğunu kazıydıktan ve diğer verileri lisanslamak için çemberlerden atladıktan sonra bile, ChangemyView ölçütü, AI model geliştiricilerinin modellerini test etmek için yüksek kaliteli veri kümeleri bulmak için nasıl mücadele ettiğini gösteriyor. Ama onları elde etmek söylenenden daha kolay.

