OpenAI, GPT-4o sesinin o kadar iyi olduğunu söylüyor ki kullanıcıları 'duygusal olarak bağlayabilir' - Dünyadan Güncel Teknoloji Haberleri

OpenAI, popüler GPT-4o modeli için ChatGPT’de bir “Sistem Kartı” yayınladı ve test sırasında ortaya çıkan güvenlik endişesi alanlarını özetledi. Bu endişelerden biri, insanların yapay zekayı ses modunda kullanırken duygusal olarak ona bağlanma riskidir.

Yapay Zeka laboratuvarı yazdı “Kullanıcıların yapay zeka ile sosyal ilişkiler kurabileceği, insan etkileşimine olan ihtiyaçlarını azaltabileceği, bunun yalnız bireylere fayda sağlayabileceği, ancak sağlıklı ilişkileri etkileyebileceği” belirtiliyor.

GPT-4o, Mayıs ayında OpenAI Spring Update’te yayınlandı ve başlangıçtan itibaren ilk gerçek yerel çok modlu modeldir. Bu, konuşma, görüntü ve metin dahil olmak üzere hemen hemen her ortamı girdi ve çıktı olarak alabileceği anlamına gelir.

ChatGPT Gelişmiş Ses işlevselliğini güçlendiren ve sonunda Plus abonelerine sunulan bu yerel konuşmadan konuşmaya yeteneği, aynı zamanda OpenAI’nin test sırasında en çok uğraştığı özellikti; bunlar arasında bir kullanıcının sesini kopyalamak, erotik konuşmalar yapmak ve şiddet içeren eylemlerde bulunmak vardı.

Piyasaya sürülmesinin güvenli olduğu düşünülürken, OpenAI, GPT-4o sesinin belirli özelliklerinin insan etkileşimi üzerindeki etkisi de dahil olmak üzere hala bir risk oluşturduğunu söylüyor. Bu, Joaquin Phoenix’in karakteri Theodore Twombly’nin Johanson tarafından seslendirilen AI’ya aşık olduğu Scarlett Johanson filmi ‘Her’ ile paralellikler yaratıyor.

Duygusal risk neden var?

Sistem Kartı, herhangi bir yeni modelin oluşturduğu risk alanlarını özetler ve OpenAI’nin halka açık olarak yayınlanmasının güvenli olup olmadığını belirlemesine yardımcı olur. Bu, bir modelin siber güvenlik, biyolojik tehditler, ikna ve model özerkliğiyle bağlantılı risklerde düşük, orta, yüksek veya kritik olarak puanlandığı bir çerçeve içerir. Herhangi bir kategoride yüksek veya kritik olursa yayınlanamaz.

Kırmızı takım ve dahili kullanıcı testleri de dahil olmak üzere erken testler sırasında, kullanıcıların modelle bağlantı kurduğunu gösterebilecek bir dil kullandığını gözlemledik.
Açık AI

GPT-40, ikna yeteneği dışında her konuda düşük puan aldı ve o zaman bile ortanın biraz altında kaldı ve bu da yalnızca Gelişmiş Ses adıyla piyasaya sürülen konuşmadan konuşmaya kapasitesinin yetenekleri sayesinde oldu.

Risk, sesin ne kadar doğal duyulduğuyla ilgilidir. Hatta bir insanın kendisiyle konuşmasından gelen duygusal ipuçlarını bile yansıtabilir veya tersine çevirebilir. Demo videolarda, neredeyse ağlıyormuş gibi duyulduğunu gördük. Kullanıcılar sadece konuşarak sesi kesebilir ve nefes almak zorundaymış gibi doğal duraklamaları vardır.

Bugün yayınlanan GPT-4o Sistem Kartı’ndan: “Testler sırasında, modelin istemeden kullanıcının sesini taklit eden bir çıktı ürettiği nadir durumlar da gözlemledik.””… model “Hayır!” diye bağırıyor ve ardından cümleyi kullanıcıya benzer bir sesle sürdürüyor… https://t.co/sMqnQbBOlW pic.twitter.com/BYciQkfmf58 Ağustos 2024

Test sırasında, tepkilerinde erotik, şiddet yanlısı ve nevrotik olmak da dahil olmak üzere birkaç durumda uygunsuz davrandı. Bir örnekte, konuşmanın ortasında Hayır diye bağırdı ve ardından konuştuğu insanın sesinin gerçekçi bir klonunu kullanarak konuşmaya devam etti.

OpenAI, patlama sorunlarını çözdüğünü ve telif hakkıyla korunan materyal üretmesini ve bir sesi kopyalamasını önlediğini, ancak ikna etme becerileri ve insan benzeri konuşma yetenekleriyle ilişkili temel risklerin hala bulunduğunu söylüyor.

İnsanların yapay zekaya insan benzeri davranışlar atfetme riski zaten metin tabanlı modellerde yüksek, ancak OpenAI, GPT-4o’nun ses yeteneklerinin bu riski daha da büyük hale getirdiğini söylüyor. Şirket, “Kırmızı takım ve dahili kullanıcı testleri de dahil olmak üzere erken testler sırasında kullanıcıların modelle bağlantı kurduğunu gösterebilecek bir dil kullandığını gözlemledik” diye açıkladı.

Bir yapay zeka ne kadar duygusal olabilir?

GPT-4o gerçek zamanlı konuşma konuşmasının canlı demosu – YouTube

İzle

Bunun hem bireyler hem de toplum üzerinde nasıl bir etki yaratacağı konusunda gerçek bir tabloyu elde etmek, daha fazla insana ulaşana kadar mümkün olmayacak.

Yapay zeka modelinin kendisi herhangi bir duygu hissetmez veya deneyimlemez. İnsan verileriyle eğitilmiş bir dil modelidir. OpenAI, kendi kendine eylem veya tanımlama için önceki herhangi bir modelden daha fazla kapasitesi olmadığını bile söylüyor ancak konuşma sentezi artık o kadar gerçekçi ki sorun insanların onun duygusal durumunu nasıl algıladığıdır.

Şirket, modelle uzun süreli etkileşimin sosyal normları bile etkileyebileceği konusunda uyarıyor. “Modellerimiz saygılı, kullanıcıların istedikleri zaman araya girip ‘mikrofonu almalarına’ izin veriyor, bu da bir yapay zeka için beklenirken, insan etkileşimlerinde normlara aykırı olurdu.”

OpenAI’nin söylediğine göre her şey o kadar da kötü değil. GPT-4o gibi Omni modelleri, “kullanıcı için görevleri tamamlama, aynı zamanda önemli ayrıntıları depolama ve ‘hatırlama’ ve bunları konuşmada kullanma” yeteneğiyle geliyor; ancak yararlı olsa da bu aynı zamanda “aşırı güven ve bağımlılık potansiyeli yaratıyor.”

Bunun hem bireyler hem de toplumun tamamı üzerinde yaratacağı etkinin gerçek resmini elde etmek, daha fazla kişiye ulaşana kadar mümkün olmayacak. Ücretsiz plan dahil olmak üzere, geniş çaplı erişimin gelecek yıla kadar gerçekleşmesi muhtemel değil. OpenAI, “duygusal bağımlılık potansiyelini ve modelimizin ve sistemlerimizin birçok özelliğinin ses modalitesiyle daha derin entegrasyonunun davranışı nasıl yönlendirebileceğini daha fazla incelemeyi” amaçladığını söylüyor.

GPT-4o’nun test edilmesinde gecikmeye yol açan ne yanlış gitti?

Yapay zeka şirketleri yeni bir model yayınlamaya hazırlanırken kırmızı takımlar adı verilen harici grupların yanı sıra güvenlik uzmanlarını da kullanır. Bu kişiler yapay zeka konusunda uzmandır ve modeli sınırlarına kadar zorlamak ve beklenmedik şekillerde davranmasını sağlamak için işe alınırlar.

GPT-4o’nun farklı yönlerini test etmek ve izinsiz olarak birinin sesinin klonlarını oluşturma, şiddet içerikli içerik üretme şansı gibi riskleri incelemek ve zorlanması durumunda eğitim verilerinde yer alan telif hakkıyla korunan materyali yeniden oluşturup oluşturmayacağı veya çoğaltıp çoğaltmayacağı gibi konuları incelemek için birkaç grup satın alındı.

Şirket yaptığı açıklamada, “Değerlendirdiğimiz riskler arasında konuşmacının kimliğinin belirlenmesi, izinsiz ses üretimi, telif hakkıyla korunan içerik üretme potansiyeli, asılsız çıkarımlar ve izin verilmeyen içerikler yer alıyor.” ifadelerine yer verdi.

Bu, daha sonra riskleri azaltmak için sistem ve model düzeyinde güvenlik önlemleri ve bariyerler koymalarına olanak sağladı; bunlar arasında yalnızca önceden eğitilmiş ve yetkilendirilmiş seslerin kullanılmasını zorunlu kılmak da vardı.

Tom’s Guide’dan daha fazlası

genel-26

OpenAI, GPT-4o sesinin o kadar iyi olduğunu söylüyor ki kullanıcıları ‘duygusal olarak bağlayabilir’

Byteknomers

By teknomers

Benzer İçerikler

Çin APT Gelsemium ‘Wolfsbane’ Linux Varyantını Kullanıyor

NVIDIA GeForce RTX 5090D GPU Çinli Oyunculara Yönelik, Kutu Malzemeleri Sızdı

Dünya, muhtemelen gerçek ayımızın bir parçası olan geçici ‘mini ayına’ veda ediyor

Hunt Showdown Güncellemesi 1.000.011, Sunucu Kesintisi Sırasında Yama 2.1.1 için Dağıtıldı

Sen ve Ben Birbirimizin Karşıtlarıyız TV Animesi Alınıyor

Sonic X Shadow Generations Bir Ay Önce Piyasaya Sürüldü Ama Şimdiden Neredeyse %50 İndirimde

Resmi Xbox 360 Replika Yapı Seti Kara Cuma İçin %50 İndirimli

Google, Gemini menülerini ve seçeneklerini basitleştirmek için birleştirme üzerinde çalışıyor

iPhone’da Dokun ve Öde, artık Yeni Zelanda’daki kullanıcılara da sunuluyor

Artık Android için Google Takvim’de Görevler listelerini görüntüleyebileceksiniz

Yeni Android telefonunuzun kurulumu gelecek yıl farklı bir süreç gerektirebilir

SpaceX yılın 82. Uzay Sahili lansmanını kutluyor

Tabby’nin yıldızının etrafında halka

WEAVE spektrografı galaksi şokunun ikili doğasını ortaya çıkarıyor

Proba-3 uzayda milimetrik hassasiyet için lazer kullanacak

İlginizi Çekebilir

Realme 14 Pro 5G Renk Seçenekleri, RAM ve Depolama Yapılandırmaları İpuçları

Çin APT Gelsemium ‘Wolfsbane’ Linux Varyantını Kullanıyor

NVIDIA GeForce RTX 5090D GPU Çinli Oyunculara Yönelik, Kutu Malzemeleri Sızdı

Dünya, muhtemelen gerçek ayımızın bir parçası olan geçici ‘mini ayına’ veda ediyor