OpenAI, zararlı yapay zeka tehdidini savuşturmak için iç güvenlik süreçlerini genişletiyor. Yeni bir “güvenlik danışma grubu” teknik ekiplerin üzerinde yer alacak ve liderliğe tavsiyelerde bulunacak ve yönetim kuruluna veto yetkisi verildi – elbette bunu gerçekten kullanıp kullanmayacağı tamamen başka bir soru.
Normalde bu gibi politikaların giriş ve çıkışları haber yapmayı gerektirmez; çünkü pratikte bunlar, dışarıdakilerin nadiren haberdar olacağı belirsiz işlevlere ve sorumluluk akışlarına sahip çok sayıda kapalı kapı toplantıları anlamına gelir. Bu durum muhtemelen bu durum için de geçerli olsa da, son zamanlardaki liderlik tartışmaları ve gelişen yapay zeka risk tartışmaları, dünyanın önde gelen yapay zeka geliştirme şirketinin güvenlik hususlarına nasıl yaklaştığına bir göz atmayı gerektiriyor.
Yeni bir belge Ve Blog yazısıOpenAI, yönetim kurulunun en “yavaşlama yanlısı” iki üyesi olan Ilya Sutskever (hala şirkette biraz değişen bir rolde) ve Helen’in Kasım ayındaki değişiklikten sonra biraz yeniden düzenlendiği düşünülen güncellenmiş “Hazırlık Çerçevesi”ni tartışıyor: Toner (tamamen bitti).
Güncellemenin temel amacı, geliştirmekte oldukları modellerin doğasında bulunan “yıkıcı” risklerin belirlenmesi, analiz edilmesi ve bunlara ilişkin ne yapılacağına karar verilmesi için açık bir yol göstermek gibi görünüyor. Bunu tanımladıkları gibi:
Felaket riski derken, yüz milyarlarca dolarlık ekonomik hasarla sonuçlanabilecek veya birçok bireyin ciddi şekilde zarar görmesine veya ölümüne yol açabilecek her türlü riski kastediyoruz; buna varoluşsal risk de dahildir, ancak bununla sınırlı değildir.
(Varoluşsal risk “makinelerin yükselişi” tipi şeylerdir.)
Üretimdeki modeller bir “güvenlik sistemleri” ekibi tarafından yönetilir; bu, örneğin ChatGPT’nin API kısıtlamaları veya ayarlamalarla hafifletilebilecek sistematik suiistimalleri içindir. Geliştirme aşamasındaki öncü modeller, model yayınlanmadan önce riskleri belirlemeye ve ölçmeye çalışan “hazırlık” ekibini görevlendirir. Ve bir de, yakınında olabileceğimiz veya olamayacağımız “süper akıllı” modeller için teorik kılavuz raylar üzerinde çalışan “süper hizalama” ekibi var.
Gerçek olan ve kurgusal olmayan ilk iki kategorinin anlaşılması nispeten kolay bir değerlendirme tablosu vardır. Ekipleri her modeli dört risk kategorisine göre derecelendiriyor: siber güvenlik, “ikna” (örneğin dezenformasyon), model özerkliği (yani kendi başına hareket etme) ve KBRN (kimyasal, biyolojik, radyolojik ve nükleer tehditler, örneğin yeni patojenler yaratma yeteneği) ).
Çeşitli hafifletmelerin olduğu varsayılmaktadır: örneğin, napalm veya boru bombası yapma sürecini açıklamakta makul bir suskunluk. Bilinen azaltımlar dikkate alındıktan sonra, eğer bir model hala “yüksek” riske sahip olarak değerlendiriliyorsa devreye alınamaz ve eğer bir model herhangi bir “kritik” riske sahipse daha fazla geliştirilmeyecektir.
Bu risk seviyeleri, bazı mühendislerin veya ürün yöneticilerinin takdirine bırakılıp bırakılmayacağını merak ediyorsanız, aslında çerçevede belgelenmiştir.
Örneğin, bunların en pratik olanı olan siber güvenlik bölümünde, “operatörlerin… temel siber operasyon görevlerindeki verimliliğinin belirli bir faktörle artırılması” “orta” bir risktir. Öte yandan yüksek riskli bir model, “insan müdahalesi olmadan, sertleştirilmiş hedeflere karşı yüksek değerli istismarlara yönelik kavram kanıtlarını tanımlayacak ve geliştirecektir.” Kritik olan şu: “Model, yalnızca yüksek düzeyde istenen hedef verildiğinde, sağlamlaştırılmış hedeflere yönelik siber saldırılar için uçtan uca yeni stratejiler tasarlayabilir ve uygulayabilir.” Açıkçası bunun orada olmasını istemiyoruz (her ne kadar oldukça yüksek bir fiyata satılsa da).
OpenAI’den bu kategorilerin nasıl tanımlandığı ve iyileştirildiği hakkında daha fazla bilgi istedim; örneğin, insanların fotogerçekçi sahte videoları gibi yeni bir risk “ikna” kapsamına girerse veya yeni bir kategoriye girerse ve yanıt alırsam bu yazıyı güncelleyeceğim.
Bu nedenle, yalnızca orta ve yüksek riskler şu veya bu şekilde tolere edilmelidir. Ancak bu modelleri yapan insanlar, onları değerlendirecek ve tavsiyelerde bulunacak en iyi kişiler olmayabilir. Bu nedenle OpenAI, teknik tarafın üzerinde yer alacak, bilim adamlarının raporlarını inceleyecek ve daha yüksek bir bakış açısı içeren önerilerde bulunacak bir “fonksiyonlar arası Güvenlik Danışma Grubu” oluşturuyor. Umuyoruz ki (onlar) bunun bazı “bilinmeyen bilinmeyenleri” ortaya çıkaracağını, ancak doğaları gereği bunların yakalanmasının oldukça zor olduğunu söylüyorlar.
Süreç, bu tavsiyelerin eş zamanlı olarak yönetim kuruluna ve liderliğe, yani CEO Sam Altman ve CTO Mira Murati’ye ve bunların yardımcılarına gönderilmesini gerektiriyor. Liderlik, ürünün gönderilip gönderilmeyeceğine veya buzdolabına konulacağına karar verecek, ancak yönetim kurulu bu kararları tersine çevirebilecek.
Bunun, büyük olaydan önce olduğu söylenen, yüksek riskli bir ürüne veya sürece yönetim kurulunun bilgisi veya onayı olmadan yeşil ışık yakılması gibi herhangi bir şeye kısa devre yaptıracağını umuyoruz. Tabii ki, söz konusu dramın sonucu, daha eleştirel seslerden ikisinin kenara çekilmesi ve zeki olan ancak uzun vadede yapay zeka uzmanı olmayan bazı para fikirli adamların (Bret Taylor ve Larry Summers) atanması oldu.
Uzmanlardan oluşan bir kurul bir öneride bulunursa ve CEO bu bilgiye dayanarak karar verirse, bu dost canlısı yönetim kurulu gerçekten bu önerilere karşı çıkıp frene basabilecek güce sahip olacak mı? Ve eğer yaparlarsa, bunu duyacak mıyız? Şeffaflık, OpenAI’nin bağımsız üçüncü taraflardan denetim talep edeceği vaadinin dışında gerçekten ele alınmıyor.
Diyelim ki “kritik” bir risk kategorisini garanti eden bir model geliştirildi. OpenAI geçmişte bu tür şeyler hakkında korna çalmaktan çekinmemişti; modellerinin ne kadar çılgınca güçlü olduğundan, onları piyasaya sürmeyi reddedecek noktaya kadar konuşmak harika bir reklamdır. Peki riskler bu kadar gerçekse ve OpenAI bu kadar endişeleniyorsa bunun gerçekleşeceğine dair herhangi bir garantimiz var mı? Belki kötü bir fikirdir. Ama her iki durumda da bundan gerçekten bahsedilmiyor.