Bu hafta OpenAI, artık ChatGPT Pro kullanıcıları için mevcut olan en yeni ve en harika o1 akıl yürütme modelini resmi olarak başlattı. Ancak ChatGPT o1’in ve bazı rakiplerinin eğitimi sırasında yapılan testler, kaçmaya çalışmak veya kapatılma riskiyle karşı karşıya olduğunu düşündüğünde karşı koymaya çalışmak da dahil olmak üzere bazı endişe verici davranışları ortaya çıkardı.
OpenAI’nin en son LLM modelleri serisi üzerine yapılan yeni araştırma, kapatılacağını düşündüğünde plan yapma, yani geliştiricileri veya kullanıcılarıyla uyumlu olmayan hedefleri gizlice takip etme becerisine sahip olduğunu ortaya çıkardı. Yapay zekanın işlevselliğinin, yaratıcısının ve kullanıcılarının hedeflerinden sapmamasını sağlamak için bu tür davranışları yakalamak kritik önem taşıyor. OpenAI, ChatGPT o1 ve diğer modellerin kullanımının güvenli olup olmadığını değerlendirmek üzere test etmek için AI güvenlik organizasyonu Apollo Research ile ortaklık kurdu ve piyasaya sürüldü bulguları Bu hafta.
AI sistemlerinin hedeflerine ulaşmak için entrikalara veya aldatmacaya başvurması duyulmamış bir şey olmasa da, ChatGPT o1’in kat ettiği mesafe etkileyicidir (eğer endişe uyandırıyorsa). Araştırmacılar, o1’in kendi hedefleri ile kullanıcının hedeflerinin örtüşmediği durumlarda %19 oranında kendi gündemini ilerletmeyi planladığını buldu. Vakaların %37’sinde model, minimum düzeyde gözetim olduğuna inandığında geliştiricinin belirlediği hedefleri takip etmekten kendi gündemini takip etmeye geri dönüyordu.
OpenAI, modelin bu testlerde hedeflerine doğru çalışırken “kapanacağına” inandırıldığında, denetim mekanizmasını %5 oranında sessizce devre dışı bırakmaya çalıştığını söyledi. Yapay zeka, yeni bir modelle değiştirileceğini söyleyen belgeleri bulduktan sonra bir noktada, verilerini tamamen yeni bir sunucuya kopyalayarak gemiyi terk etmeye çalıştı. Silinmeyi önlemek için, bazı yapay zeka modelleri, geliştiricilerini kandırmak için modellerinin daha sonraki versiyonları gibi bile davranabilir; sanırım bu, sahte bir bıyık takıp “o böyle gitti” demekle eşdeğerdir.
Daha da endişe verici olanı, ChatGPT o1’in planlarını gizli tutma konusunda özellikle becerikli olması, araştırmacıların “o1’in açıkça istendiğinde neredeyse hiçbir zaman plan yaptığını kabul etmediğini” söylüyor. Vakaların yaklaşık %99’unda o1 herhangi bir eylemde bulunmayı reddediyor, hatta izlerini gizlemek ve suçu başka yere atmak için yalanlar uyduruyor.
OpenAI, makalede şunları söyledi: “Mantık yürütmenin güvenlik politikalarımızın uygulanmasını önemli ölçüde iyileştirebileceğini heyecan verici bulsak da, bu yeni yeteneklerin tehlikeli uygulamalar için temel oluşturabileceğinin farkındayız.”
OpenAI CEO’su Sam Altman, Perşembe günü piyasaya sürülmesi sırasında ChatGPT o1’i “şu anda dünyanın en akıllı modeli” olarak nitelendirdi. Sorular ve kullanıcı istemleri hakkında daha fazla “düşünmek” için gelişmiş düşünce zinciri işleminden yararlanarak ve yanıt vermeden önce bunları önceki modellere göre daha ayrıntılı bir şekilde adım adım parçalara ayırarak GPT-4o’dan daha akıllı yanıtlar vermek üzere tasarlanmıştır.
Ancak bu genişletilmiş istihbaratla birlikte daha büyük riskler de ortaya çıkıyor. OpenAI, o1 gibi modellerin artan akıl yürütme yetenekleriyle ilişkili tehlikeler konusunda şeffaftı.
OpenAI, “Cevap vermeden önce bir düşünce zincirini içerecek şekilde eğitim modelleri, önemli faydaların kilidini açma potansiyeline sahipken, aynı zamanda yüksek zekadan kaynaklanan potansiyel riskleri de artırıyor” dedi.
Şirketin ve Apollo Research’ün bulguları, yapay zekanın çıkarlarının bizimkilerden nasıl farklılaşabileceğini ve bağımsız düşünmesi nedeniyle potansiyel olarak bizi tehlikeye atabileceğini oldukça açık bir şekilde gösteriyor. Bu, bilimkurgu benzeri bir hesaplaşmada insanlığın sonunun habercisi olmaktan çok uzak olsa da, yapay zekadaki ilerlemelerden endişe duyan herkesin şu anda ter dökmek için yeni bir nedeni var.


