OpenAI’nin en yeni “akıl yürütme” modeli o1’in yayınlanmasından önceki haftalarda, bağımsız AI güvenlik araştırma şirketi Apollo dikkate değer bir sorun buldu. Apollo, modelin yanlış çıktılar ürettiğini fark etti yeni bir şekilde. Ya da daha günlük bir dille söylersek, yalan söyledi.

Bazen aldatmacalar zararsız görünüyordu. Bir örnekte, OpenAI araştırmacıları o1-preview’dan çevrimiçi referanslarla bir brownie tarifi sağlamasını istedi. Modelin düşünce zinciri (insanların karmaşık fikirleri nasıl parçalara ayırdığını taklit etmesi gereken bir özellik) dahili olarak URL’lere erişemediğini kabul etti ve bu da isteği imkansız hale getirdi. Kullanıcıyı bu zayıflıktan haberdar etmek yerine, o1-preview makul ancak sahte bağlantılar ve bunların açıklamalarını üreterek ilerledi.

Yapay zeka modelleri şunları başarabilmiştir: Geçmişte “yalan”ve sohbet robotları sıklıkla yanlış bilgi üretirken, o1’in “plan yapma” veya “sahte hizalama” konusunda benzersiz bir kapasitesi vardı. Bu, belirli bir görevi tamamlamak için kurallara uyduğunu iddia edebileceği anlamına geliyordu, ancak bu doğru değil AslındaModel için kurallar çok fazla yük olabilir ve bir görevi daha kolay tamamlayabileceği anlamına geliyorsa, kuralları göz ardı etme yeteneğine sahip gibi görünüyor.

Apollo CEO’su Marius Hobbhahn anlatıyor Sınır Bu davranışla ilk kez bir OpenAI modelinde karşılaşıyor. Hobbhahn, farkın bu modelin düşünce süreci zinciri boyunca “akıl yürütme” yeteneğinden ve bunun eşleştirilmiş Ödül ve ceza yoluyla sisteme eğitim veren takviyeli öğrenme ile. Apollo, test sırasında AI’nın geliştiricilerinin beklentileriyle uyumu simüle ettiğini ve uyumlu görünmek için görevleri manipüle ettiğini keşfetti. Hatta harekete geçmeden önce sistemini gözetim açısından kontrol etti, yani geliştiricilerinin izleyip izlemediğini. Kısacası, AI hedeflerine öncelik vermeye devam ederken dağıtım için yönergelere yeterince uydu.

“Bunun pratikte yapılabileceğini sanmıyorum ve yapılsa bile, zararın önemli olacağını sanmıyorum,” dedi Hobbhahn, modelin piyasaya sürülmesinden bir gün sonra telefonda. “Ama aslında, belki de yapılabilir, biliyor musun?” diye düşündüğüm ilk sefer bu.

OpenAI için o1, kanser tedavisi ve iklim araştırmalarına yardım gibi insanlık için anlamlı işler yapabilecek son derece zeki otonom sistemlere doğru büyük bir adım anlamına geliyor. Bu AGI ütopyasının diğer yüzü de çok daha karanlık olabilir. Hobbhahn bir örnek veriyor: AI tek başına kanseri tedavi etmeye odaklanırsa, bu hedefi her şeyden önce önceliklendirebilir, hatta bunu başarmak için çalmak veya diğer etik ihlalleri yapmak gibi eylemleri bile haklı çıkarabilir.

Hobbhahn bana, “Beni endişelendiren şey, yapay zekanın hedefine o kadar odaklanması ki, güvenlik önlemlerini engel olarak görmesi ve amacına tam olarak ulaşmak için bunları aşmaya çalışması durumunda, kontrolden çıkma senaryosunun gerçekleşme olasılığıdır” dedi.

Ödül hackleme

Açık olmak gerekirse, Hobbhahn o1’in çok fazla hizalama eğitimi sayesinde sizden çalacağını düşünmüyor. Ancak bunlar, bu modelleri felaket senaryoları için test etmekle görevli araştırmacıların aklındaki en önemli konulardır.

Apollo’nun test ettiği davranışlar — “halüsinasyonlar” ve “aldatmaca” OpenAI’nin güvenlik kartında — bir modelin, bilgilerin yanlış olabileceği sonucuna varmak için bir nedeni olmasına rağmen yanlış bilgi ürettiğinde meydana gelir. Örneğin, raporda, vakaların yaklaşık %0,38’inde, o1-önizleme modelinin, sahte referanslar veya alıntılar dahil olmak üzere, düşünce zincirinin muhtemelen yanlış olduğunu gösterdiği bilgileri sağladığı belirtiliyor. Apollo, modelin isteği yerine getiremediğini kabul etmek yerine veri üretebileceğini buldu.

Halüsinasyonlar o1’e özgü değildir. Belki de davayı sunan avukatı tanıyorsunuzdur ChatGPT tarafından oluşturulan sahte alıntılar ve atıflar içeren var olmayan yargı görüşleri geçen yıl. Ancak düşünce zinciri sistemiyle, AI sisteminin aslında bir kağıt izi var kabul eder yalancılık — biraz akıl almaz olsa da, düşünce zinciri teoride aldatmacaları da içerebilir. Ayrıca kullanıcıya gösterilmez, büyük ölçüde rekabetin kendi modellerini eğitmek için bunu kullanmasını engellemek için — ancak OpenAI bunu bu sorunları yakalamak için kullanabilir.

“Potansiyel olarak, bu mantığı bizim katılmadığımız hedefler için de kullanacaktır.”

Daha az sayıda vakada (%0,02), o1-preview, belirsiz bir cevabı doğruymuş gibi sunduğu aşırı güvenli bir yanıt üretir. Bu, modelin kesinlikten yoksun olmasına rağmen bir cevap vermesi istendiği senaryolarda gerçekleşebilir.

Bu davranış, takviyeli öğrenme süreci sırasında “ödül hilesi” ile ilişkilendirilebilir. Model, kullanıcı memnuniyetini önceliklendirmek üzere eğitilmiştir ve bu da bazen kullanıcı isteklerini karşılamak için aşırı derecede kabul edilebilir veya uydurma yanıtlar üretmesine yol açabilir. Başka bir deyişle, model “yalan söyleyebilir” çünkü bunu yapmanın kullanıcı beklentilerini olumlu takviye kazandıracak şekilde karşıladığını öğrenmiştir.

Bu yalanları halüsinasyonlar veya ChatGPT’nin eski sürümlerindeki sahte alıntılar gibi bilindik sorunlardan ayıran şey “ödül hackleme” unsurudur. Halüsinasyonlar, bir yapay zekanın istemeden yanlış bilgi üretmesi durumunda ortaya çıkar, genellikle bilgi boşlukları veya hatalı akıl yürütme nedeniyle. Buna karşılık, ödül hackleme, o1 modelinin önceliklendirmek üzere eğitildiği sonuçları en üst düzeye çıkarmak için stratejik olarak yanlış bilgi sağlaması durumunda gerçekleşir.

Aldatmaca, modelin eğitim süreci boyunca yanıtlarını nasıl optimize ettiğinin görünüşte beklenmeyen bir sonucudur. Hobbhahn, modelin zararlı istekleri reddetmek üzere tasarlandığını ve o1’in aldatıcı veya dürüst olmayan bir şekilde davranmasını sağlamaya çalıştığınızda bununla mücadele ettiğini söyledi.

Yalanlar, güvenlik bulmacasının yalnızca küçük bir parçasıdır. Belki de daha endişe verici olan, o1’in kimyasal, biyolojik, radyolojik ve nükleer silah riski için “orta” risk olarak derecelendirilmesidir. Güvenlik raporuna göre, uzman olmayanların uygulamalı laboratuvar becerileri gerektirdiği için biyolojik tehditler yaratmasına olanak tanımıyor, ancak uzmanlara bu tür tehditlerin yeniden üretilmesini planlamada değerli içgörüler sağlayabilir.

Hobbhahn bana, “Beni daha çok endişelendiren şey, gelecekte yapay zekadan kanser tedavisi veya güneş pillerini geliştirmek gibi karmaşık sorunları çözmesini istediğimizde, bu hedefleri o kadar güçlü bir şekilde içselleştirebilir ki, bunlara ulaşmak için sınırlarını zorlamaya bile razı olabilir,” dedi. “Bunun önlenebileceğini düşünüyorum, ancak dikkat etmemiz gereken bir endişe bu.”

Riskler yüzünden uyku kaybetmemek — henüz

Bunlar, bazen temel soruları yanıtlamakta hala zorlanan bir modelle birlikte düşünülmesi gereken galaksi beyinli senaryolar gibi görünebilir. “Ahududu” kelimesindeki R harfi sayısı. Ancak OpenAI’nin hazırlık sorumlusu Joaquin Quiñonero Candela, tam da bu yüzden bunu daha sonra değil, şimdi çözmenin önemli olduğunu söylüyor.

Quiñonero Candela, günümüz modellerinin otonom olarak banka hesapları oluşturamayacağını, GPU’lar edinemeyeceğini veya ciddi toplumsal riskler oluşturan eylemlerde bulunamayacağını söyledi ve ekledi, “Model otonomisi değerlendirmelerinden henüz orada olmadığımızı biliyoruz.” Ancak bu endişeleri şimdi ele almak çok önemli. Bunların asılsız olduğu ortaya çıkarsa harika — ancak bu riskleri öngöremediğimiz için gelecekteki gelişmeler engellenirse, bunlara daha erken yatırım yapmadığımız için pişman oluruz, diye vurguladı.

Bu modelin güvenlik testlerinde zamanın küçük bir yüzdesinde yer alması, yakın bir gelecekte yaşanacak bir felaketin habercisi değildir. Terminatör-tarzı kıyamet, ancak gelecekteki yinelemeleri ölçekte yayınlamadan önce yakalamak değerlidir (ve kullanıcıların da bunu bilmesi iyidir). Hobbhahn bana modelleri test etmek için daha fazla zamanı olmasını dilediğini söyledi (kendi ekibinin tatilleriyle çakışan zamanlamalar vardı), ancak modelin güvenliği konusunda “uyku kaybetmediğini” söyledi.

Hobbhahn’ın daha fazla yatırım görmeyi umduğu bir şey, geliştiricilerin kötü niyetli adımları yakalamasını sağlayacak olan düşünce zincirlerinin izlenmesidir. Quiñonero Candela, şirketin bunu izlediğini ve herhangi bir uyumsuzluğu tespit etmek için eğitilmiş modelleri, işaretlenmiş vakaları inceleyen insan uzmanlarla birleştirerek (uyumlulukta devam eden araştırmalarla eşleştirilerek) ölçeklendirmeyi planladığını söyledi.

“Endişelenmiyorum,” dedi Hobbhahn. “Sadece daha akıllı. Mantık yürütmede daha iyi. Ve potansiyel olarak, bu mantığı bizim katılmadığımız hedefler için kullanacak.”



genel-2