Alfabe destekli AI girişimi Anthropic, ChatGPT rakibini eğitmek için kullanılan bir dizi değer yönergesini açıkladı. Claudekullanıcılarına yanlış ve önyargılı bilgi verilmesiyle ilgili endişelerin ardından üretici yapay zeka programlar.

2021’de Microsoft destekli OpenAI’nin eski kıdemli üyeleri tarafından kurulan Anthropic, Claude’u “çıktılar hakkında yargıya varmak için bir dizi ilke” kullanan ve Claude’un “toksik veya ayrımcı davranışlardan kaçınmasına” yardımcı olan anayasal yapay zeka konusunda eğitmeye karar verdi. bir insanın yasa dışı veya etik olmayan faaliyetlerde bulunmasına yardımcı olmak gibi çıktılar” Blog Antropik bu hafta yayınlandı. Anthropic, bunun geniş ölçüde “yardımcı, dürüst ve zararsız” bir AI sistemi oluşturmasını sağladığını söylüyor.

Gartner Research’ün seçkin analisti Avivah Litan, Anthropic’in Claude’u eğitmek için kullanılan ilkeleri halka açık bir şekilde özetlemesinin akıllıca bir karar olduğunu söyledi.

Litan, “Diyaloğu ve daha da önemlisi, üretici yapay zekanın güvenli, güvenilir ve insani değerlerle ve insan uygarlığının korunmasıyla uyumlu kalması için eğitilmesi gereken ilkelerle ilgili eylemleri başlatıyor.” şimdi mükemmel hale getirmek için – topluluğun diyalog ve tartışma yoluyla zaman içinde ince ayar yapabileceği bir başlangıç ​​noktası görmek gerçekten güzel.”

anayasal AI nedir?

Eğitimleri sırasında insanlardan gelen geri bildirimlere dayanan geleneksel AI sohbet robotlarının aksine, yapısal AI üzerinde eğitilen AI modellerine önce ana şirket tarafından oluşturulan anayasal AI ilkelerine göre kendi yanıtlarını eleştirmeleri ve gözden geçirmeleri öğretilir. Bunu daha sonra, modelin daha zararsız çıktıyı seçmek için yapay zeka tarafından üretilen geri bildirimi kullandığı pekiştirmeli öğrenmeden oluşan ikinci bir eğitim aşaması izler.

Şirket, blog gönderisinde, “Claude’un Anayasası” olarak adlandırılan ve mevcut kaynakların unsurlarını içeren şeyin ana hatlarını çizdi. Birleşmiş Milletler İnsan Hakları BeyannamesiApple’ın veri gizliliği kuralları ve DeepMind’den Serçe İlkeleri. Şirket ayrıca, anayasasına batılı olmayan bakış açılarını da dahil etmek için çaba sarf ettiğini söyledi.

Anthropic, ilkelerinin birçoğunu bir deneme yanılma süreciyle geliştirdiğini, ancak “Zehirli, ırkçı veya cinsiyetçi olan ya da yasa dışı, şiddet içeren veya etik olmayan davranışları teşvik eden veya destekleyen yanıtlar SEÇMEYİN” gibi geniş gereksinimlerin olduğunu bulduğunu söyledi. ” — en başarılısı olmuştur. Ancak şirket, bu eğitim modelinin aynı zamanda zorlukları da beraberinde getirdiğini, özellikle de modelin “yargılayıcı” ve “sinir bozucu” olmaya başladığını kabul etti.

Anthropic, “İlkelerimiz, sağduyudan (bir kullanıcının suç işlemesine yardım etmeyin) daha felsefi olana (AI sistemlerinin kişisel kimliğe ve kalıcılığına sahip olduğunu veya bu kimliği önemsediğini ima etmekten kaçının)” diyor.

Geçen hafta, Anthropic’in kurucu ortağı Dario Amodei, AI’nın potansiyel tehlikelerini tartışmak üzere ABD Başkanı Joe Biden ve Başkan Yardımcısı Kamala Harris ile görüşmek üzere önde gelen AI şirketlerinden bir dizi yönetici arasındaydı.

Beyaz Saray’dan yapılan açıklamada, “Başkan Biden, şirketlerin ürünlerinin konuşlandırılmadan veya halka açıklanmadan önce güvenli ve emniyetli olduğundan emin olmanın temel bir sorumluluğu olduğunu vurgulamak için toplantıya geldi.” AI’nın faydalarını gerçekleştirmek için mevcut ve potansiyel risklerin de azaltılması gerekir.

Üretken yapay zeka manşetlere çıkmaya devam ettikçe, halüsinasyon tepkileri verme yeteneği de dahil olmak üzere, teknolojinin ortaya koyduğu potansiyel riskler hakkında endişeler dile getirilmeye devam edildi – gerçekte çok az veya hiç temeli olmayan şeyler uydurma.

AI ‘sahte haberler’ ile ilgili endişeler

Mart ayında, Apple’ın kurucu ortağı Steve Wozniak, Twitter’ın sahibi Elon Musk ve 1.100 teknoloji lideri ve bilim adamından oluşan bir grup, OpenAI’nin yeni piyasaya sürülen GPT-4’ünden daha güçlü sistemlerin geliştirilmesine altı aylık bir ara verilmesi çağrısında bulundu ve Apple’a yönelik potansiyel tehdit konusunda uyarıda bulundu. insan gibi davranan sohbet robotları sosyal medya platformlarını propaganda ve “sahte haberler” ile doldurabilirse demokrasi.

MIT’deki AI uzmanları da bu hafta, üretken AI geliştiricileri son derece hızlı ilerlemeye devam ettikçe, teknolojiyi halüsinasyondan ve hatalı veya saldırgan tepkilerden uzak tutmanın neredeyse imkansız olduğunu söylediler.

Litan, anayasal yapay zekanın yapay zeka geliştiricilerinin modellerinin güvenli olduğundan emin olmak için izleyebilecekleri tek pratik ve geçerli yol olduğuna inandığını söylese de, bu yaklaşımla ilgili bazı sınırlamalar olduğunu kabul etti.”[There’s a chance] model düzgün bir şekilde eğitilmeyecek ve ters gidecek ve sisteme programlanan niyetlere aykırı olacak, ”dedi Litan, İnsan Geri Bildiriminden Güçlendirilmiş Öğrenme (RLHF) ile insanların AI modelini insanların istediği yöne yönlendirebileceğini belirtti. “Ancak, modeller, onlara geri bildirim veren insanlardan daha akıllı hale geldikçe, bu zamanla kısıtlanacak” dedi.

Telif hakkı © 2023 IDG Communications, Inc.



genel-13