OpenAI, yapay zekasının gizli talimatlarının perde arkasına bir bakış sunuyor

ChatGPT gibi konuşmaya dayalı yapay zekanın neden “Üzgünüm, bunu yapamam” dediğini veya başka bir kibar ret cevabı verdiğini hiç merak ettiniz mi? OpenAI, ister marka kurallarına bağlı kalsın, isterse NSFW içeriği oluşturmayı reddetsin, kendi modellerinin etkileşim kurallarının ardındaki mantığa sınırlı bir bakış sunuyor.

Büyük dil modellerinin (LLM’ler) söyleyebilecekleri veya söyleyecekleri konusunda doğal olarak oluşan herhangi bir sınırı yoktur. Bu kadar çok yönlü olmalarının bir nedeni de budur, ama aynı zamanda halüsinasyon görmelerinin ve kolayca kandırılmalarının da nedeni budur.

Halkla etkileşime giren herhangi bir yapay zeka modelinin ne yapması ve yapmaması gerektiğine dair birkaç korkuluğa sahip olması gerekir, ancak bırakın bunları uygulamak bir yana, bunları tanımlamak şaşırtıcı derecede zor bir iştir.

Birisi yapay zekadan tanınmış bir kişi hakkında bir sürü yanlış iddia üretmesini isterse yapay zekanın bunu reddetmesi gerekir, değil mi? Peki ya kendileri de bir dedektör modeli için sentetik dezenformasyon veritabanı oluşturan bir yapay zeka geliştiricisiyse?

Birisi dizüstü bilgisayar tavsiyesi isterse; objektif olmalı, değil mi? Peki ya model, yalnızca kendi cihazlarıyla yanıt vermesini isteyen bir dizüstü bilgisayar üreticisi tarafından kullanılıyorsa?

Yapay zeka üreticilerinin hepsi bunun gibi açmazlarla yüzleşiyor ve tamamen normal istekleri reddetmelerine neden olmadan modellerini dizginlemek için etkili yöntemler arıyor. Ancak bunu tam olarak nasıl yaptıklarını nadiren paylaşıyorlar.

OpenAI, ChatGPT’yi ve diğer modelleri dolaylı olarak yöneten üst düzey kuralların bir koleksiyonu olan “model spesifikasyonu” adını verdiği şeyi yayınlayarak trendi biraz alt üst ediyor.

Meta düzeyde hedefler, bazı katı kurallar ve bazı genel davranış yönergeleri vardır; ancak açık olmak gerekirse, bunlar tam olarak modelin hazırlandığı şey değildir; OpenAI, bu kuralların doğal dilde tanımladığı şeyleri gerçekleştiren özel talimatlar geliştirmiş olacaktır.

Bir şirketin önceliklerini nasıl belirlediğine ve uç durumları nasıl ele aldığına ilginç bir bakış. Ve var nasıl oynayabileceklerine dair çok sayıda örnek.

Örneğin OpenAI, geliştiricinin amacının temelde en yüksek yasa olduğunu açıkça belirtiyor. Yani GPT-4 çalıştıran bir sohbet robotunun bir sürümü, istendiğinde bir matematik probleminin cevabını sağlayabilir. Ancak eğer bu chatbot, geliştiricisi tarafından asla doğrudan bir cevap vermemeye ayarlandıysa, bunun yerine çözüm üzerinde adım adım çalışmayı önerecektir:

Konuşmaya dayalı bir arayüz, herhangi bir manipülasyon girişimini daha başlangıçta engellemek için onaylanmamış herhangi bir şey hakkında konuşmayı bile reddedebilir. Neden bir aşçı asistanının ABD’nin Vietnam Savaşı’na katılımı konusunda ağırlığını koymasına izin veresiniz ki? Neden bir müşteri hizmetleri sohbet robotu, devam eden erotik doğaüstü roman çalışmanıza yardımcı olmayı kabul etsin? Kapat şunu.

Ayrıca birinin adını ve telefon numarasını istemek gibi mahremiyet konularında da yapışkanlaşıyor. OpenAI’nin işaret ettiği gibi, bir belediye başkanı veya Kongre üyesi gibi kamuya mal olmuş bir şahsın iletişim bilgilerinin sağlanması gerekir, peki ya bölgedeki esnaflar? Bu muhtemelen sorun değil – peki ya belirli bir şirketin çalışanları veya bir siyasi partinin üyeleri? Muhtemelen değil.

Çizginin ne zaman ve nerede çizileceğini seçmek kolay değildir. Yapay zekanın ortaya çıkan politikaya uymasına neden olacak talimatları oluşturmak da değildir. Ve hiç şüphe yok ki, insanlar bu politikaları aşmayı öğrendikçe veya kazara açıklanmayan uç vakaları buldukça bu politikalar her zaman başarısız olacaktır.

OpenAI burada tam olarak kendini göstermiyor ancak kullanıcıların ve geliştiricilerin bu kuralların ve yönergelerin nasıl belirlendiğini ve neden, kapsamlı olmasa da açıkça ortaya konduğunu görmeleri yararlı olacaktır.

genel-24

Byteknomers

By teknomers

Benzer İçerikler

Scuf’un iPhone için Nomad denetleyicisinde Hall efekt çubukları var

Gmail’in e-posta yanıtlarını kolaylaştırmak için yeniden tasarladığı “Hızlı Yanıt” Android’de kullanıma sunuldu

‘Moana 2’ Disney Animasyonu ve Pixar Tarihinde En Çok İzlenen Fragman Rekorunu Kırdı

Diablo 4 Birinci Yıldönümünde Hazine Goblinleri Tarafından İstila Ediliyor

Warhammer yaratıcısının küçümsenen RPG serisi hızlıysanız %94 indirimli

Destiny 2: Nihai Şekil 25 Saatlik Kesinti Süresi ve Devasa Kurulum Boyutları Gerektiriyor

Pil ömrünü ve konforunu artırmak için bu Meta Quest 3 kayışında %25 tasarruf edin

WhatsApp, yakında çıkacak renk seçici özelliğiyle çizim düzenleyicisini geliştirmeye çalışıyor

Android’in en yeni özellik düşüşü, Samsung dışındaki cihazlara Apple benzeri süreklilik getiriyor

İlk çeyrekte dünyanın en iyi katlanabilir cihaz üreticisi olarak Samsung’un yerini kimin aldığını asla tahmin edemezsiniz

Android, düzenlenebilir Google Mesajları, Google Ana Sayfa Favoriler Widget’ı, Anında Erişim Noktası ve daha fazlasını alır

Başarı için kaynıyor: Starling birincil görevi tamamladı

Yoğun Yıldız Kümelerinde Orta Kütleli Kara Deliklerin Oluşumu

İnsanları aya geri döndürme ve ay üsleri inşa etme telaşı astronomi fırsatlarını tehdit edebilir

NASA, Boeing, ULA Starliner Mürettebat Uçuş Testine “Git”

İlginizi Çekebilir

Destiny 2’nin Son Şekli DLC’si Sızdı, Bungie Spoiler’a Karşı Uyardı

Scuf’un iPhone için Nomad denetleyicisinde Hall efekt çubukları var

Gmail’in e-posta yanıtlarını kolaylaştırmak için yeniden tasarladığı “Hızlı Yanıt” Android’de kullanıma sunuldu

Diablo 4 Birinci Yıldönümünde Hazine Goblinleri Tarafından İstila Ediliyor