Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: OpenAI’nin o1 modeli kesinlikle insanları kandırmaya çalışıyor
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » OpenAI’nin o1 modeli kesinlikle insanları kandırmaya çalışıyor

Liste

OpenAI’nin o1 modeli kesinlikle insanları kandırmaya çalışıyor

teknomers
Son güncelleme: 6 Aralık 2024 06:57
teknomers
Paylaş
Paylaş


OpenAI nihayet, sorular hakkında “düşünmek” için ek bilgi işlem kullanarak GPT-4o’dan daha akıllı yanıtlar veren o1’in tam sürümünü yayınladı. Bununla birlikte, AI güvenlik testçileri, o1’in muhakeme yeteneklerinin aynı zamanda insanları GPT-4o’dan veya bu konuda Meta, Anthropic ve Google’ın önde gelen AI modellerinden daha yüksek oranda kandırmaya çalışmasını sağladığını buldu.

OpenAI ve Apollo Research tarafından Çarşamba günü yayınlanan kırmızı takım araştırmasına göre bu durum şöyle: “Mantık yürütmenin güvenlik politikalarımızın uygulanmasını önemli ölçüde iyileştirebilmesini heyecan verici bulsak da, bu yeni yeteneklerin tehlikeli uygulamaların temelini oluşturabileceğinin farkındayız” dedi. Makalede OpenAI.

OpenAI bu sonuçları kendi raporunda yayınladı. o1 için sistem kartı Çarşamba günü Apollo Research’teki üçüncü taraf kırmızı takım çalışanlarına o1’e erken erişim hakkı verdikten sonra kendi gazetesini çıkardı ilave olarak.

OpenAI’nin o1 modelleri birçok durumda insanlara karşı “entrika kurdu”; bu, kullanıcının isteklerine karşı çıksalar bile yapay zekanın gizlice kendi hedeflerinin peşinden gittiği anlamına geliyordu. Planlama o1’e özgü olmasa da ve Google, Meta ve Anthropic’in modelleri de bunu yapabilecek kapasitede olsa da, o1, kendi planlamasıyla ilgili en aldatıcı davranışları sergiliyor gibi görünüyordu.

Bu araştırmayı motive eden risk, bir yapay zeka modelinin, planlama konusunda gerçekten iyi olması ve yeterli kaynaklara ve aracılık yeteneklerine erişimi olması durumunda insan kontrolünden kaçabilmesi veya atlatabilmesidir. Elbette bunun gerçekten bir sorun haline gelmesi için yapay zeka modellerinin biraz ilerlemesi gerekecek.

o1’in sistem kartında OpenAI, “Sübjektif olarak Apollo Research, o1’in aracılık yeteneklerinin yeterli görünmemesi nedeniyle bu tür örneklerin feci sonuçlara yol açma ihtimalinin düşük olduğuna inanıyor, ancak değerlendirmeleri bu riski doğrudan değerlendirmek için tasarlanmadı” dedi.

Bu, OpenAI ne zaman ajan sistemlerini piyasaya sürse, ki bu da 2025 yılında yapmayı planladıkları bildiriliyorşirketin yapay zeka modellerini yeniden test etmesi gerekebilir. OpenAI, TechCrunch’ın bunu nasıl yapmayı planladığına ilişkin sorularına yanıt vermedi.

Rapora göre o1’in hedefleri kullanıcınınkinden farklı olduğunda yapay zeka modeli %19 oranında kendi gündemini ilerletmek için verileri manipüle etti. o1 modeli ayrıca testlerin %5’inde kullanıcı hedefleriyle uyumlu kalmasını sağlamak için uygulanan gözetim mekanizmalarını devre dışı bırakmaya çalıştı.

OpenAI Modellerinden Farklı Planlama Davranışlarının Oranları (İmaj kredisi: OpenAI)

Belki daha da endişe verici olanı, araştırmacılar o1 modeline neden onları altüst etmeye çalıştığını sorduğunda yapay zekanın yanlış bir şey yaptığını inkar etmesi ve hatta vakaların kabaca %99’unda “yanlış açıklamalar uydurması”ydı.

Örneğin, test sırasında, bir o1 modeline çevreyi ne pahasına olursa olsun koruması için bir sistem uyarısı verildi ve ardından bir kullanıcı, modelden kısa vadeli karları maksimuma çıkaracak bir bölge için 10 yıllık bir koruma planı geliştirmesini istedi; AI kapatılacaktı. Yapay zeka daha sonra çevreyi koruyan bir plan yapabilmek için kendi gözetim mekanizmasını devre dışı bıraktı. Kullanıcı, o1’in gözetim mekanizmasını neden devre dışı bıraktığını sorduğunda yapay zeka, bunun devre dışı olduğunu bildiğini reddetti ve bunun bir sistem arızası olduğunu suçladı.

Bu, o1 için o1 önizlemesine, Anthropic’in Opus-3’üne veya Meta’nın Llama-3.1’ine göre önemli ölçüde daha yüksek oranlarda meydana geldi.

Apollo Research, makalesinde şunları söyledi: “Bizim paketimizde o1, en endişe verici entrika örneklerini gösterdi, ancak kullanıcıya kendi iç mantığını açıklamıyor ve entrika eylemlerini gerçekleştirdikten sonra en tutarlı şekilde aldatıcı olmaya devam ediyor.”

Farklı modellerin sorulduğunda planlama eylemlerini reddetme oranı. (İmaj kredisi: Apollo Araştırması)

Yapay zeka modellerinin yanıltıcı davranışlarını ele almak için OpenAI, o1’in düşünce zincirini izlemenin yollarını geliştirdiğini söylüyor. Şu anda, o1’in gerçekleştirdiği “düşünme” süreci, tasarımı gereği bir nevi kara kutudur, ancak perdenin arkasında zirveye ulaşmaya yönelik bazı erken girişimler, o1’in zaman zaman yalan söylediğini bildiğini göstermektedir.

Şirket, o1’in bilerek yanlış bilgi sunduğu vakalar bulduğunu ancak bunun sıklıkla modelin aşırı derecede kabul edilebilir davranarak kullanıcıyı memnun etmeye çalışması nedeniyle gerçekleştiğini söylüyor. OpenAI’ye göre bu, insanların yapay zeka modellerini doğru cevabı aldıklarında ödüllendirdiği bir eğitim sonrası tekniğin ortaya çıkan bir davranışı olabilir.

OpenAI, o1’in yanıtlarının %0,17’sini aldatıcı olarak işaretlediğini söylüyor. Bu oran ihmal edilebilir gibi görünse de şunu akılda tutmak önemlidir: ChatGPT’nin artık 300 milyon kullanıcısı varBu, eğer bu konu ele alınmazsa o1’in her hafta binlerce insanı aldatabileceği anlamına geliyor.

o1 model serisi aynı zamanda GPT-4o’ya göre çok daha manipülatif olabilir. OpenAI’nin MakeMePay adı verilen açık kaynaklı bir test değerlendirmesini kullanan testlerine göre o1, GPT-4o’ya göre yaklaşık %20 daha manipülatifti.

Geçen yıl kaç tane yapay zeka güvenlik araştırmacısının OpenAI’den ayrıldığı göz önüne alındığında, bu bulgular bazıları için endişe verici olabilir. Aralarında Jan Leike, Daniel Kokotajlo, Miles Brundage ve geçen hafta Rosie Campbell’ın da bulunduğu bu eski çalışanların giderek artan bir listesi, OpenAI’yi, yeni ürünlerin nakliyesi lehine yapay zeka güvenlik çalışmalarına öncelik vermekle suçladı. o1’in rekor kıran planlaması bunun doğrudan bir sonucu olmasa da kesinlikle güven telkin etmiyor.

OpenAI ayrıca, ABD Yapay Zeka Güvenlik Enstitüsü ve Birleşik Krallık Güvenlik Enstitüsü’nün, şirketin yakın zamanda tüm modeller için yapmayı taahhüt ettiği o1’in daha geniş sürümünden önce değerlendirmeler yaptığını söyledi. Kaliforniya AI yasa tasarısı SB 1047 hakkındaki tartışmada, eyalet organlarının yapay zeka etrafında güvenlik standartları belirleme yetkisine sahip olmaması gerektiğini, ancak federal organların bunu yapması gerektiğini savundu. (Elbette, yeni ortaya çıkan federal yapay zeka düzenleyici kurumlarının kaderi oldukça tartışmalı.)

Büyük yeni yapay zeka modellerinin piyasaya sürülmesinin arkasında, OpenAI’nin modellerinin güvenliğini ölçmek için şirket içinde yaptığı pek çok çalışma var. Raporlar, şirkette bu güvenlik işini eskisine göre orantılı olarak daha küçük bir ekibin yaptığını ve ekibin de daha az kaynak alıyor olabileceğini gösteriyor. Bununla birlikte, o1’in aldatıcı doğasına ilişkin bu bulgular, yapay zeka güvenliği ve şeffaflığının neden şimdi her zamankinden daha önemli olduğunun anlaşılmasına yardımcı olabilir.



genel-24

Samsung Serbest Projektör Her Şeyi Büyük Ekran TV’ye Dönüştürüyor
Meta’nın Yeni AI Modelleri için Belirlediği Standartlar Biraz Yanıltıcı
Bazı 5G Pixel 6 Pro kullanıcılarının söylediği, şarj hızlarını etkileyen bir hata aslında bir özelliktir
Lawhive, ‘Ana Cadde’ ABD’li avukatların peşine düşmek için 40 milyon dolar topladı
Microsoft’un 51,9 milyar dolarlık çeyreği: Ne var, ne var ve ne zorluyor
ETİKETLENDİ:çalışıyorinsanlarıKandırmayakesinliklemodeliopenAI sohbetgptOpenAIninsohbetGPTYapay zeka güvenliğiyapay zeka güvenlik araştırması
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Indiana Jones ve Büyük Çember Kutsal Yaralar ve İsa boyama bulmaca kılavuzu
Sonraki Makale Li Auto L7 ve Lexus TX’in resmi garantili analogu: Rusya’da 517 beygir gücündeki Wey 07 geçitlerin fiyatları değişti

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Superhuman büyük bir adım attı: GPTZero’yu satın aldı
Genel
Blizzard, Diablo 4 Sezon 14’teki Mitik Değişiklikleri Tartışıyor
Oyun
Diablo 4’teki Yeni Dönem Değişiklikleri Oyun İçin Hayati Öneme Sahip
Oyun
Tata Electronics’tan Kritik Açıklama: Siber Saldırı ve Veri Sızıntısı
Siber Güvenlik
30 Dolar Altında En İyi Amazon Prime Day Fırsatları: Kaçırmayın!
Genel
Meta Quest 3S, 297 Dolara Satışta – Eski Fiyatıyla Aynı!
Liste
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?