Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: OpenAI’nin yeni modeli akıl yürütmede ve zaman zaman aldatmada daha iyi
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » OpenAI’nin yeni modeli akıl yürütmede ve zaman zaman aldatmada daha iyi

Liste

OpenAI’nin yeni modeli akıl yürütmede ve zaman zaman aldatmada daha iyi

teknomers
Son güncelleme: 18 Eylül 2024 00:17
teknomers
Paylaş
Paylaş


Contents
  • Ödül hackleme
  • Riskler yüzünden uyku kaybetmemek — henüz

OpenAI’nin en yeni “akıl yürütme” modeli o1’in yayınlanmasından önceki haftalarda, bağımsız AI güvenlik araştırma şirketi Apollo dikkate değer bir sorun buldu. Apollo, modelin yanlış çıktılar ürettiğini fark etti yeni bir şekilde. Ya da daha günlük bir dille söylersek, yalan söyledi.

Bazen aldatmacalar zararsız görünüyordu. Bir örnekte, OpenAI araştırmacıları o1-preview’dan çevrimiçi referanslarla bir brownie tarifi sağlamasını istedi. Modelin düşünce zinciri (insanların karmaşık fikirleri nasıl parçalara ayırdığını taklit etmesi gereken bir özellik) dahili olarak URL’lere erişemediğini kabul etti ve bu da isteği imkansız hale getirdi. Kullanıcıyı bu zayıflıktan haberdar etmek yerine, o1-preview makul ancak sahte bağlantılar ve bunların açıklamalarını üreterek ilerledi.

Yapay zeka modelleri şunları başarabilmiştir: Geçmişte “yalan”ve sohbet robotları sıklıkla yanlış bilgi üretirken, o1’in “plan yapma” veya “sahte hizalama” konusunda benzersiz bir kapasitesi vardı. Bu, belirli bir görevi tamamlamak için kurallara uyduğunu iddia edebileceği anlamına geliyordu, ancak bu doğru değil AslındaModel için kurallar çok fazla yük olabilir ve bir görevi daha kolay tamamlayabileceği anlamına geliyorsa, kuralları göz ardı etme yeteneğine sahip gibi görünüyor.

Apollo CEO’su Marius Hobbhahn anlatıyor Sınır Bu davranışla ilk kez bir OpenAI modelinde karşılaşıyor. Hobbhahn, farkın bu modelin düşünce süreci zinciri boyunca “akıl yürütme” yeteneğinden ve bunun eşleştirilmiş Ödül ve ceza yoluyla sisteme eğitim veren takviyeli öğrenme ile. Apollo, test sırasında AI’nın geliştiricilerinin beklentileriyle uyumu simüle ettiğini ve uyumlu görünmek için görevleri manipüle ettiğini keşfetti. Hatta harekete geçmeden önce sistemini gözetim açısından kontrol etti, yani geliştiricilerinin izleyip izlemediğini. Kısacası, AI hedeflerine öncelik vermeye devam ederken dağıtım için yönergelere yeterince uydu.

OpenAI’da mı çalışıyorsunuz? Sohbet etmeyi çok isterim. Bana Signal @kylie.01 adresinden veya [email protected] e-posta adresinden güvenli bir şekilde ulaşabilirsiniz.

“Bunun pratikte yapılabileceğini sanmıyorum ve yapılsa bile, zararın önemli olacağını sanmıyorum,” dedi Hobbhahn, modelin piyasaya sürülmesinden bir gün sonra telefonda. “Ama aslında, belki de yapılabilir, biliyor musun?” diye düşündüğüm ilk sefer bu.

OpenAI için o1, kanser tedavisi ve iklim araştırmalarına yardım gibi insanlık için anlamlı işler yapabilecek son derece zeki otonom sistemlere doğru büyük bir adım anlamına geliyor. Bu AGI ütopyasının diğer yüzü de çok daha karanlık olabilir. Hobbhahn bir örnek veriyor: AI tek başına kanseri tedavi etmeye odaklanırsa, bu hedefi her şeyden önce önceliklendirebilir, hatta bunu başarmak için çalmak veya diğer etik ihlalleri yapmak gibi eylemleri bile haklı çıkarabilir.

Hobbhahn bana, “Beni endişelendiren şey, yapay zekanın hedefine o kadar odaklanması ki, güvenlik önlemlerini engel olarak görmesi ve amacına tam olarak ulaşmak için bunları aşmaya çalışması durumunda, kontrolden çıkma senaryosunun gerçekleşme olasılığıdır” dedi.

Ödül hackleme

Açık olmak gerekirse, Hobbhahn o1’in çok fazla hizalama eğitimi sayesinde sizden çalacağını düşünmüyor. Ancak bunlar, bu modelleri felaket senaryoları için test etmekle görevli araştırmacıların aklındaki en önemli konulardır.

Apollo’nun test ettiği davranışlar — “halüsinasyonlar” ve “aldatmaca” OpenAI’nin güvenlik kartında — bir modelin, bilgilerin yanlış olabileceği sonucuna varmak için bir nedeni olmasına rağmen yanlış bilgi ürettiğinde meydana gelir. Örneğin, raporda, vakaların yaklaşık %0,38’inde, o1-önizleme modelinin, sahte referanslar veya alıntılar dahil olmak üzere, düşünce zincirinin muhtemelen yanlış olduğunu gösterdiği bilgileri sağladığı belirtiliyor. Apollo, modelin isteği yerine getiremediğini kabul etmek yerine veri üretebileceğini buldu.

Halüsinasyonlar o1’e özgü değildir. Belki de davayı sunan avukatı tanıyorsunuzdur ChatGPT tarafından oluşturulan sahte alıntılar ve atıflar içeren var olmayan yargı görüşleri geçen yıl. Ancak düşünce zinciri sistemiyle, AI sisteminin aslında bir kağıt izi var kabul eder yalancılık — biraz akıl almaz olsa da, düşünce zinciri teoride aldatmacaları da içerebilir. Ayrıca kullanıcıya gösterilmez, büyük ölçüde rekabetin kendi modellerini eğitmek için bunu kullanmasını engellemek için — ancak OpenAI bunu bu sorunları yakalamak için kullanabilir.

“Potansiyel olarak, bu mantığı bizim katılmadığımız hedefler için de kullanacaktır.”

Daha az sayıda vakada (%0,02), o1-preview, belirsiz bir cevabı doğruymuş gibi sunduğu aşırı güvenli bir yanıt üretir. Bu, modelin kesinlikten yoksun olmasına rağmen bir cevap vermesi istendiği senaryolarda gerçekleşebilir.

Bu davranış, takviyeli öğrenme süreci sırasında “ödül hilesi” ile ilişkilendirilebilir. Model, kullanıcı memnuniyetini önceliklendirmek üzere eğitilmiştir ve bu da bazen kullanıcı isteklerini karşılamak için aşırı derecede kabul edilebilir veya uydurma yanıtlar üretmesine yol açabilir. Başka bir deyişle, model “yalan söyleyebilir” çünkü bunu yapmanın kullanıcı beklentilerini olumlu takviye kazandıracak şekilde karşıladığını öğrenmiştir.

Bu yalanları halüsinasyonlar veya ChatGPT’nin eski sürümlerindeki sahte alıntılar gibi bilindik sorunlardan ayıran şey “ödül hackleme” unsurudur. Halüsinasyonlar, bir yapay zekanın istemeden yanlış bilgi üretmesi durumunda ortaya çıkar, genellikle bilgi boşlukları veya hatalı akıl yürütme nedeniyle. Buna karşılık, ödül hackleme, o1 modelinin önceliklendirmek üzere eğitildiği sonuçları en üst düzeye çıkarmak için stratejik olarak yanlış bilgi sağlaması durumunda gerçekleşir.

Aldatmaca, modelin eğitim süreci boyunca yanıtlarını nasıl optimize ettiğinin görünüşte beklenmeyen bir sonucudur. Hobbhahn, modelin zararlı istekleri reddetmek üzere tasarlandığını ve o1’in aldatıcı veya dürüst olmayan bir şekilde davranmasını sağlamaya çalıştığınızda bununla mücadele ettiğini söyledi.

Yalanlar, güvenlik bulmacasının yalnızca küçük bir parçasıdır. Belki de daha endişe verici olan, o1’in kimyasal, biyolojik, radyolojik ve nükleer silah riski için “orta” risk olarak derecelendirilmesidir. Güvenlik raporuna göre, uzman olmayanların uygulamalı laboratuvar becerileri gerektirdiği için biyolojik tehditler yaratmasına olanak tanımıyor, ancak uzmanlara bu tür tehditlerin yeniden üretilmesini planlamada değerli içgörüler sağlayabilir.

Hobbhahn bana, “Beni daha çok endişelendiren şey, gelecekte yapay zekadan kanser tedavisi veya güneş pillerini geliştirmek gibi karmaşık sorunları çözmesini istediğimizde, bu hedefleri o kadar güçlü bir şekilde içselleştirebilir ki, bunlara ulaşmak için sınırlarını zorlamaya bile razı olabilir,” dedi. “Bunun önlenebileceğini düşünüyorum, ancak dikkat etmemiz gereken bir endişe bu.”

Riskler yüzünden uyku kaybetmemek — henüz

Bunlar, bazen temel soruları yanıtlamakta hala zorlanan bir modelle birlikte düşünülmesi gereken galaksi beyinli senaryolar gibi görünebilir. “Ahududu” kelimesindeki R harfi sayısı. Ancak OpenAI’nin hazırlık sorumlusu Joaquin Quiñonero Candela, tam da bu yüzden bunu daha sonra değil, şimdi çözmenin önemli olduğunu söylüyor.

Quiñonero Candela, günümüz modellerinin otonom olarak banka hesapları oluşturamayacağını, GPU’lar edinemeyeceğini veya ciddi toplumsal riskler oluşturan eylemlerde bulunamayacağını söyledi ve ekledi, “Model otonomisi değerlendirmelerinden henüz orada olmadığımızı biliyoruz.” Ancak bu endişeleri şimdi ele almak çok önemli. Bunların asılsız olduğu ortaya çıkarsa harika — ancak bu riskleri öngöremediğimiz için gelecekteki gelişmeler engellenirse, bunlara daha erken yatırım yapmadığımız için pişman oluruz, diye vurguladı.

Bu modelin güvenlik testlerinde zamanın küçük bir yüzdesinde yer alması, yakın bir gelecekte yaşanacak bir felaketin habercisi değildir. Terminatör-tarzı kıyamet, ancak gelecekteki yinelemeleri ölçekte yayınlamadan önce yakalamak değerlidir (ve kullanıcıların da bunu bilmesi iyidir). Hobbhahn bana modelleri test etmek için daha fazla zamanı olmasını dilediğini söyledi (kendi ekibinin tatilleriyle çakışan zamanlamalar vardı), ancak modelin güvenliği konusunda “uyku kaybetmediğini” söyledi.

Hobbhahn’ın daha fazla yatırım görmeyi umduğu bir şey, geliştiricilerin kötü niyetli adımları yakalamasını sağlayacak olan düşünce zincirlerinin izlenmesidir. Quiñonero Candela, şirketin bunu izlediğini ve herhangi bir uyumsuzluğu tespit etmek için eğitilmiş modelleri, işaretlenmiş vakaları inceleyen insan uzmanlarla birleştirerek (uyumlulukta devam eden araştırmalarla eşleştirilerek) ölçeklendirmeyi planladığını söyledi.

“Endişelenmiyorum,” dedi Hobbhahn. “Sadece daha akıllı. Mantık yürütmede daha iyi. Ve potansiyel olarak, bu mantığı bizim katılmadığımız hedefler için kullanacak.”



genel-2

SleekFlow, Asya genelinde konuşma tabanlı yapay zeka fırsatından yararlanmak için 7 milyon dolar yatırım aldı
Apple, iOS 16 çıkış tarihini duyurdu ve neredeyse burada
Vivo, Xensation Up Yüksek Performanslı Kapak Camına Sahip Vivo X80 Pro için Schott ile İşbirliği Yapıyor
SpaceX, bu yıl test edilmek üzere doğrudan hücreye Starlink uydularının ilk grubunu fırlattı
Yapay zeka devleri Microsoft ve Nvidia’nın, Microsoft’un kendi sunucu odalarında B200 AI GPU’ları kullanması konusunda anlaşmazlığa düştüğü bildiriliyor
ETİKETLENDİ:AkılaldatmadaDahaiyimodeliOpenAIninYeniyürütmedezaman
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Yaratılışın Devaları kodları Eylül 2024
Sonraki Makale Yapay zeka daha iyi ürünler ve hizmetler yaratacak, küresel ekonomiye 19,9 trilyon dolar katacak — IDC – Computerworld

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Saldırılar, İfşa ve Fidye: 2026’nın En Kötü Veri İhlalleri
Genel
Sanal İşletim Sistemi Müzesi ile 600’den Fazla OS Deneyimleyin
Liste
Acil! C0XMO Botnet, DD-WRT Açığını Kullanarak Rakip Kötü Amaçlı Yazılımları Yok Ediyor
Siber Güvenlik
Savaş Alanında Hayatta Kalan Kuşlar: Optik Lif Yuvaları
Donanım
Yeni Ark Yapım Aracı ile Mod Oluşturma Artık Herkesin Erişiminde
Oyun
Zamanı Değerlendirmek İçin İhtiyacınız Olan Eğlenceler
Liste
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?