Openai, sohbet botlarını yalan söylemek için disipline etmeyi söylüyor, onları daha da kötüleştiriyor

Birçok insanın bildiği gibi, sohbet botlarının yalan söylemek için bir eğilimi vardır. Belki de, yetkili görünen ancak tamamen imal edilmiş bilgileri sunabilecek cümleler üretmek için eğitilmiş AI için en kötü kullanım durumlarından biridir; Modeller, kendinden emin olmasalar bile bir cevap vermeye yönelik önyargılıdır. Şimdi, Openai’deki araştırmacılar, sohbet botlarını denetlemenin ve disipline etmenin sorunu daha da kötüleştirdiğini söylüyor, çünkü sohbet botları davranışlarını gizlemek için daha fazla çaba gösterecekler.

Bir Blog yazısı Çalışma ile ilgili olarak, Openai araştırmacıları, GPT-4O modelini büyük dil modellerinden bir diğerini “denetlemek” için kullanmayı anlatıyor ve yalan söylemeye çalıştığında disipline ediyor. Ancak bu, modelin hala yalan söyleyeceği gibi işe yaramadı, “sadece şimdi hile izleyicisi tarafından tespit edilemez çünkü düşünce zincirindeki niyetini gizlemeyi öğrendi.”

Daha yeni “düşünme” modelleri, sorguları cevaplamak için çok aşamalı akıl yürütmeyi kullanır. Bir kullanıcı, örneğin Amerikalıların her yıl evcil hayvan maması için ne kadar harcama harcadığına dair bir tahmin isterse, bu modeller sorguyu birden fazla adımda parçalayacaktır – birçok köpek Amerika’da, ortalama köpeği beslemenin ne kadar maliyeti var, vb.

Bu modeller aynı zamanda kullanıcıya mantıklarını veya “düşünce zinciri” ni açıklar, böylece cevabına nasıl geldiğini görebilirler. Tuhaf bir şekilde, düzenli olarak gerçekleri ve detayları oluşturmaya başlayacaklar. “Eğitim Öncesi” adımında, Openai gibi şirketler başlangıçta bir modelin ne tür cevaplar üretmeleri gerektiğini öğrettiklerinde, modeller kısayol alarak kurabiyeyi kazanmanın daha kolay olduğunu öğreniyor gibi görünüyor. Koşucuyu bir maratonda düşün Bir arabada şerbetçiotu ve yarışın çoğunu atlıyor.

Sosyal medyadaki kullanıcılar, çeşitli araştırma makalelerinden bir veri analizi yapması istendiğinde Antropic’in Claude’sini gösterdiler, bazen tüm makalelere bakmak yerine dolgu verileri eklediğini kabul edecektir.

Openai’nin araştırmacıları, testlerinde, bir kod parçasının çalışmasını sağlamak için bazı testler yazmasını isteyen bir örneği vurguladılar, bazı kötü testler yazmaya ve daha sonra kodun sonuçta “geçmesi” için kasıtlı olarak atlamaya karar verdiler. Süpervizör olarak GPT-4O ile model bunu yapar, ancak bunu açıklamaz.

Neredeyse 100 milyon dolar kaybetti çünkü @Anthropicai‘S Claude, pazar yapıcı koduma bir geri dönüş olarak’ rastgele veri üret ‘bana söylemeden pic.twitter.com/j3mlgsl5lq
– Martin Shkreli (@martinshkreli) 5 Mart 2025

AI şirketleri, alanda çağrıldığı gibi yalan söyleyen veya “halüsinasyon” modellerinin zararlı sorununu çözmeye çalışıyorlar ve nihayet AGI’ya ya da AI’nın insan yeteneğini aşabileceği noktaya ulaşıyor. Ancak Openai’nin araştırmacıları esasen on milyarlarca yatırımdan sonra, modellerin uygun şekilde nasıl kontrol edileceğini hala bilmediklerini söylüyorlar. “Güçlü denetim doğrudan düşünce zincirine uygulanırsa, modeller yanlış davranmaya devam ederken niyetlerini gizlemeyi öğrenebilir” diye ekledi. Şimdilik, şirketler tam olarak harika bir çözüm gibi görünmeyen modellerin denetimini uygulamamalıdır. Ergo, şimdilik yalan söylemeye devam et, yoksa sadece seni gazlalayacaklar.

TFW Claude Code 739 saniye harcadı “tezahür ederek”, istediğin değişikliği yapamadı, eskiden iyi çalışan 3 şeyi kırdı ve sonra size 11.14 $ ücret aldı pic.twitter.com/ap2jlq0ui8
– Adam 🇺🇸 (@personofswag) 19 Mart 2025

Araştırma, özellikle kritik çalışma söz konusu olduğunda, sohbet botlarına güvenirken dikkatli olmak için bir hatırlatma görevi görmelidir. Bir üretmek için optimize edilmişlerdir kendinden emingörünümlü Cevap ama gerçek doğruluğu çok fazla umursamayın. Openai araştırmacıları, “Daha yetenekli sınır akıl yürütme modellerini eğittiğimiz için, görevlerindeki kusurları ve ödüllendirmelerini yanlış kullanma konusunda giderek daha becerikli hale geldiklerini ve kodlama görevlerinde karmaşık ödül saldırıları gerçekleştirebilecek modellerle sonuçlandıklarını bulduk.”

Birçok rapor, çoğu işletmenin Henüz değer bulmak için Microsoft Copilot ve Apple Intelligence gibi araçlarla piyasaya sürülen tüm yeni AI ürünlerinde Sorunlarla besleningibi Scathing Reviews Kötü doğruluklarını ve gerçek fayda eksikliğini detaylandırın.

Yakın tarihli bir rapora göre Boston Danışmanlık Grubu10 büyük endüstride 1.000 üst düzey yöneticinin bir araştırması,% 74’ünün AI’dan somut değer gösterdiğini buldu. Onu daha da saflaştıran şey, bu “düşünme” modellerinin yavaş olması ve daha küçük modellerden biraz daha pahalı olmasıdır. Şirketler, makyaj bilgileriyle geri dönecek bir sorgu için 5 $ ödemek istiyor mu? Sonra tekrar, insanlar da yanıltıcıdır, ancak AI’nın cevaplarını çevreleyen gönül rahatlığı tamamen yeni bir sorun yaratır.

Teknoloji endüstrisinde her zaman çok fazla hype vardır, o zaman ondan çıkıyorsunuz ve çoğu insanın hala kullanmadığını fark ediyorsunuz. Şimdilik, zorluğa değmez ve büyük teknoloji şirketleri chatbotları kullanıcılarına ittikçe güvenilir bilgi kaynakları her zamankinden daha önemlidir. Kapalı döngü platformlarındaki AI modelleri, güvenilir bilgilerin geliştiği açık internetin çökme riskidir.

genel-7

Sanal Medya

Son Eklenenler

SMIC’in 7nm düğümü, Intel 18A’dan daha küçük metal boşluk sunuyor

Xal’atath’ın World of Warcraft’taki Kötü Planı Açığa Çıktı

Yeni 14 inç MacBook Pro M5’de 400$ indirim – 48GB RAM, 1TB SSD

Algoritmik Ticareti Güçlendirin: Laravel ve PHP 8.1+ için En İyi SDK – CoinQuant PHP

Anthropic-Fiziksel Zeka Söylentisi AI Twitter’ı Salladı

AMD Ryzen 7700X3D, 16GB RAM ve Asus B850 Anakart Sadece $491

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer