
Antropik araştırmacılar Perşembe günü iki yeni makale paylaştı ve yapay zeka (AI) modelinin nasıl düşündüğü konusunda metodolojiyi ve bulguları paylaştı. San Francisco merkezli AI firması, belirli bir yanıtı ve yapıyı diğerine neyin motive ettiğini anlamak için büyük bir dil modelinin (LLM) karar verme sürecini izlemek için teknikler geliştirdi. Şirket, AI modellerinin bu özel alanının kara bir kutu olarak kaldığını vurguladı, çünkü modelleri geliştiren bilim adamları bile bir AI’nın çıktılar oluşturmak için kavramsal ve mantıklı bağlantılar yaptığını tam olarak anlamıyorlar.
Antropik araştırma, bir AI’nın nasıl düşündüğüne ışık tutuyor
Bir haber odasında postalamakşirket, “büyük bir dil modelinin düşüncelerinin izlenmesi” üzerine yakın zamanda yapılan bir çalışmadan detaylar yayınladı. Chatbots ve AI modelleri oluşturmasına rağmen, bilim adamları ve geliştiriciler bir sistemin bir çıktı üretmek için oluşturduğu elektrik devresini kontrol etmezler.
Bu “kara kutuyu” çözmek için antropik araştırmacılar iki makale yayınladılar. . Birinci Bir devre izleme metodolojisi ve ikincisi kullanarak Claude 3.5 haiku tarafından kullanılan iç mekanizmaları araştırır. kağıt dil modellerinde hesaplama grafiklerini ortaya çıkarmak için kullanılan tekniklerle ilgilidir.
Araştırmacıların cevap bulmayı amaçladığı bazı sorular Claude’un “düşünme” dilini, metin oluşturma yöntemini ve akıl yürütme modelini içeriyordu. Antropic, “Claude gibi modellerin nasıl düşündüğünü bilmek, yeteneklerini daha iyi anlamamıza izin vereceğini ve onları niyet ettiğimiz şeyi yaptıklarından emin olmamıza yardımcı olacağını” söyledi.
Makalede paylaşılan içgörülere dayanarak, yukarıda belirtilen soruların cevapları şaşırtıcıydı. Araştırmacılar, Claude’un yanıt vermeden önce düşündüğü belirli bir dil için bir tercih edeceğine inanıyorlardı. Ancak AI Chatbot’un “diller arasında paylaşılan kavramsal bir alanda” düşündüğünü buldular. Bu, düşüncesinin belirli bir dilden etkilenmediği ve kavramları bir tür evrensel düşünce dilinde anlayabileceği ve işleyebileceği anlamına gelir.
Claude her seferinde bir kelime yazmak için eğitilmiş olsa da, araştırmacılar AI modelinin yanıtını birçok kelimeyi ileriye götürdüğünü ve çıktısını bu hedefe ulaşmak için ayarlayabileceğini buldular. Araştırmacılar, AI’yı bir şiir yazmaya ve Claude’un önce kafiyeli kelimelere karar verdiğini fark ederek bu modelin kanıtlarını buldular ve daha sonra bu kelimeleri anlamak için geri kalan çizgileri oluşturdular.
Araştırma ayrıca, zaman zaman Claude’nin mantıksal adımları izlemek yerine kullanıcıyla anlaşmak için mantıksal sesli argümanları tersine çevirebileceğini iddia etti. Bu kasıtlı “halüsinasyon” inanılmaz zor bir soru sorulduğunda ortaya çıkar. Antropic, araçlarının AI modellerindeki mekanizmaları işaretlemek için yararlı olabileceğini söyledi, çünkü bir sohbet botunun yanıtlarında ne zaman sahte akıl yürütme sağladığını belirleyebiliyor.
Antropik, bu metodolojide sınırlamalar olduğunu vurguladı. Bu çalışmada, sadece onlarca kelime istemleri verildi ve yine de devreleri tanımlamak ve anlamak için insan çabası birkaç saat sürdü. LLM’lerin yetenekleriyle karşılaştırıldığında, araştırma çabası Claude tarafından yapılan toplam hesaplamanın sadece bir kısmını yakaladı. Gelecekte, AI firması verileri anlamak için AI modellerini kullanmayı planlıyor.

