Üretken yapay zeka (genAI), kamu ve çeşitli kuruluşlar tarafından yaygın olarak kullanılmaya devam ettikçe, benimsenmesi bazen hatalar, telif hakkı ihlali sorunları ve doğrudan halüsinasyonlar nedeniyle sekteye uğramakta ve doğruluğuna olan güveni zedelemektedir.

Bir Stanford Üniversitesi’nde eğitim genAI’nin yasal soruları yanıtlarken %75 oranında hata yaptığını tespit etti. Çalışma şunu ortaya çıkardı: “Örneğin, iki farklı arasındaki emsalsel ilişkiyi ölçen bir görevde” [court] durumlarda, çoğu LLM rastgele tahminden daha iyisini yapamaz.”

Sorun şu ki, OpenAI’ninki gibi genAI teknolojisinin arkasındaki büyük dil modelleri (LLM’ler) GPT-4, Meta’nın Laması 2 Ve Google’ın PaLM 2’sisadece spesifik olmayan parametrelerle şekilsiz olmakla kalmıyor, aynı zamanda doğuştan önyargılara sahip yanılabilir insanlar tarafından da eğitiliyorlar.

LLM’ler şu şekilde karakterize edilmiştir: Stokastik papağanlar – büyüdükçe varsayımsal veya rastgele cevapları daha rastgele hale geliyor. Bu “sonraki kelime tahmin motorları” kendilerine öğretilenleri tekrarlamaya devam ediyor, ancak bir mantık çerçevesi olmadan.

Halüsinasyonları ve genAI ile ilgili diğer hataları azaltmanın bir yöntemi, Sorgulara daha doğru ve spesifik yanıtlar sağlayan daha özelleştirilmiş bir genAI modeli oluşturmanın bir yöntemi olan Alma Artırılmış Üretim veya “RAG”dır.

Ancak RAG, genAI karmaşasını temizlemiyor çünkü mantığının hala mantıksal kuralları yok.

Başka bir deyişle genAI’nin doğal dil işlemesi, güvenilir sonuçlara (çıktılara) yönelik şeffaf çıkarım kurallarına sahip değildir. Bazıları, genAI’nin sağladığı nihai cevaba doğru atılan yolun her adımında güvenilir sonuçlar elde etmek için gerekli olanın “resmi bir dil” veya bir dizi ifade (kurallar veya korkuluklar) olduğunu öne sürüyor. Kesin anlambilime yönelik biçimsel bir sistemin bulunmadığı doğal dil işleme, öznel ve sağlam bir temelden yoksun anlamlar üretir.

Ancak izleme ve değerlendirme ile genAI çok daha doğru yanıtlar üretebilir.

Elemental Cognition’ın kurucusu ve CEO’su David Ferrucci, “Açıkça söylemek gerekirse, bu, 2+2’nin 4’e eşit olduğu şeklindeki açık anlaşmaya benziyor. 4’lük son yanıtta hiçbir belirsizlik yok” diyor. yeni bir blog yazısında şunu yazdı.

Ferrucci, IBM’in baş araştırmacısı olarak çalışan bir bilgisayar bilimcisidir. Watson süper bilgisayar, televizyon yarışma programını kazanan doğal dil işlemcisi Tehlike! 2011 yılında.

genAI’nın çılgınca yoldan sapmasına ilişkin yakın tarihli bir örnek, Google’ın, kullanıcı metin istemlerini alan ve belirli bir sosyopolitik görüşe yönelik açıkça önyargılı görüntüler oluşturan yeni Gemini aracını içeriyor. Kullanıcı metni, Nazilerin ürettiği Siyah ve Asyalı Nazilerin görsellerinin istenmesini ister. Papa’nın resmini çizmesi istendiğinde Gemini şöyle cevap verdi: Asyalı, kadın bir Papa ve Siyahi bir Papa yaratmak.

Google, sorunları çözmek için platformu çevrimdışına almak zorunda kaldı. Ancak İkizler burcunun sorunları benzersiz değildir.

Elemental Biliş, “nöro-sembolik akıl yürütme” adı verilen bir şey geliştirdi. Mantık adı verilen Saç örgüsüFerrucci çalışanları tarafından gerçekleştirilen görüşmelere dayanarak, bir Yüksek Lisans programından okuduğu dilin mantıksal bir modelini oluşturur.

“İş analistleriyle röportaj yapıyoruz ve ‘Sorununuzu anladığımdan emin olayım’ diyoruz. Gelin, sizin için önemli olan çeşitli iş kurallarını, ilişki kısıtlamalarını ve yetkilendirmeleri gözden geçirelim” dedi Ferrucci. “Sonra, bu sorunların nasıl çözüleceğini bilen bu resmi mantıksal akıl yürütme uzmanı tarafından yürütülen resmi bir bilgi modeli elde edersiniz.

Ferrucci, “Basitçe söylemek gerekirse, sinir ağlarını iyi oldukları konularda kullanıyoruz, ardından mantık, şeffaflık, açıklanabilirlik ve işbirlikçi öğrenmeyi ekliyoruz” dedi. “LLM ile bunu uçtan uca yapmaya çalışırsanız hata yapacak ve hata yaptığını bilmeyecektir. Mimarimiz yalnızca yüksek lisansa dayalı bir mimari değil.”

Temple Üniversitesi’nde istatistik, operasyon ve veri bilimi profesörü Subodha Kumar, hiçbir genAI platformunun “en azından yakın gelecekte” önyargısız olmayacağını söyledi.

Kumar, “Genel amaçlı platformlar daha fazla önyargıya sahip olacak” dedi ve şöyle devam etti: “Özel veriler ve daha az önyargılı modeller üzerinde eğitilmiş birçok özel platformun ortaya çıktığını görebiliriz. Mesela sağlık alanında onkoloji için ayrı, üretim için ayrı bir modelimiz olabilir.”

LLM’lerin insanlar tarafından işe özel yanıtlar sağlayacak şekilde ince ayarlandığı hızlı mühendislik, yerini bir dizi mantıksal kurala bıraktı; Ferrucci’ye göre bu kurallar, yüksek lisans yoluyla etkileşimli bir sohbeti yönlendirebilen genel amaçlı muhakeme yürütücüsü tarafından yürütülen kesin ve net bir sohbeti garanti edebilir.

Elemental Cognition, çıktılarına karşı bir tür sağlama toplamı görevi gören genAI izleme, değerlendirme ve gözlemlenebilirlik araçları oluşturan, aralarında IBM’in de bulunduğu bir dizi startup ve yerleşik bulut hizmeti sağlayıcısı arasında yer alıyor. Bazı durumlarda bu sağlama toplamı teknolojileri diğer yapay zeka motorlarıdır; Başka bir deyişle, bir yapay zeka platformu, ilkinin hatalı cevaplar veya içerik yaymadığından emin olmak için diğer bir yapay zeka platformunu izliyor.

Elemental Cognition’ın yanı sıra bu tür genAI araçlarını sağlayan şirketler arasında şunlar yer alıyor: Arize, TruEraVe İnsan döngüsü. Gibi çeşitli makine öğrenimi platformları Veri Robotu IDC’nin Yapay Zeka ve Otomasyon uygulamaları araştırma direktörü Kathy Lang’a göre, aynı zamanda yapay zeka izleme alanına da geçiyoruz.

GenAI çıktılarının izlenmesi şu ana kadar genel olarak, özellikle kurumsal dağıtımlarda bir insanı döngüde tutmayı gerektiriyordu. Öngörülebilir gelecekte durum muhtemelen böyle olacak olsa da, izleme ve değerlendirme teknolojisi yapay zeka hatalarının miktarını büyük ölçüde azaltabilir.

“İnsanların yüksek lisans eğitimlerinin çıktılarını ve yanıtlarını değerlendirmesini ve ardından bu geri bildirimi modellere dahil etmesini sağlayabilirsiniz, ancak bu uygulama ölçeklenebilir değildir. Lang, diğer Yüksek Lisans’ların çıktılarını yargılamak için değerlendirme işlevlerini veya diğer Yüksek Lisans’ları da kullanabilirsiniz” dedi. “Kesinlikle bir trend haline geliyor.”

Lang, LLM izleme yazılımını, genellikle LLM tabanlı uygulamaları değerlendiren ve hata ayıklayan Büyük Dil Modeli İşlemleri (LLMOps) kategorisine yerleştirir. Daha genel olarak buna Foundation Model Ops veya FMOps denir.

Lang, “FMOps, genAI yaşam döngüsünü otomatikleştirmek ve kolaylaştırmak için açıkça kullanılıyor” dedi. “GenAI modellerinin öznel doğası, bazı yeni FMOps araçları, süreçleri ve en iyi uygulamaları gerektirir. FMOps yetenekleri arasında temel modellerin test edilmesi, değerlendirilmesi, izlenmesi ve karşılaştırılması; bunların yeni verilerle uyarlanması ve ayarlanması; özel türev modeller geliştirilmesi; hata ayıklama ve performansın optimize edilmesi yer alır. ve üretimde FM tabanlı uygulamaların dağıtılması ve izlenmesi.

Lang, “Bu, LLM’ler için tam anlamıyla makine öğrenimi operasyonlarıdır… LLM tabanlı uygulamaların yaşam döngüsünü operasyonel hale getirmek için yeni araçlara, mimari ilkelere ve en iyi uygulamalara odaklanır” dedi.

Örneğin Arize’nin Phoenix aracı bir LLM’yi diğerini alaka, toksisite açısından değerlendirmek için kullanır ve yanıtların kalitesi. Araç şunu kullanır: “İzlerLLM isteklerinin (bir uygulama veya son kullanıcı tarafından yapılan) birden fazla adım boyunca yayılırken izlediği yolları kaydetmek için. Bir eşlik eden OpenInference spesifikasyonu LLM’lerin yürütülmesini ve çevresindeki uygulama bağlamını anlamak için telemetri verilerini kullanır. Kısacası, bir LLM iş akışının nerede bozulduğunu anlamak veya alma ve araç çalıştırmayla ilgili sorunları gidermek mümkündür.

Gartner Research’ün seçkin başkan yardımcısı analisti Avivah Litan, LLM izleme ve değerlendirme teknolojilerinin farklı şekillerde çalıştığını söyledi. Bazılarının verinin kaynağını kontrol ettiğini ve LLM’den gelen yanıtın kaynağını kontrol etmeye çalıştığını söyledi, “ve eğer bir tane bulamazlarsa bunun bir halüsinasyon olduğunu varsayıyorlar.”

Diğer teknolojiler, girdi ve çıktı yerleşimleri arasındaki çelişkileri arar ve eşleşmezlerse veya “toplanmazlarsa”, bu bir halüsinasyon olarak işaretlenir. Aksi halde uygun yanıt olarak işaretlenir.

Diğer satıcıların teknolojileri “aykırı değerleri” veya sıra dışı yanıtları arar.

Google aramanın işleyişiyle aynı şekilde, veritabanındaki bilgiler, “yerleştirme” olarak bilinen bir uygulama olan sayısal verilere dönüştürülür. Örneğin, bir bölgedeki bir otele fiyatı, olanakları ve konumu nedeniyle beş haneli bir isim verilebilir. Google’da benzer fiyat ve olanaklara sahip bir bölgedeki otelleri arıyorsanız, arama motoru benzer numaralara sahip tüm otelleri geri bildirimde bulunacaktır.

Aynı şekilde, LLM değerlendirme yazılımı yerleştirmeye benzer yanıtları veya sorguya en çok benzeyen verileri arar. “Eğer bir şeyse [that’s] bu yerleştirmeden uzaktaysa, bu bir aykırı değere işaret eder ve sonra bunun neden aykırı değer olduğuna bakabilirsiniz. Daha sonra bunun doğru bir veri kaynağı olmadığını belirleyebilirsiniz” dedi Litan. “Google bu yöntemi seviyor çünkü tüm arama verilerine ve arama özelliklerine sahip.”

Yüksek Lisans değerlendirme araçlarının halüsinasyonları ve hatalı çıktıları en aza indirmesinin bir başka yolu da verilen yanıtın kaynağını aramaktır. Eğer güvenilir bir kaynak yoksa bu bir halüsinasyon olduğu anlamına gelir.

Lang, “Tüm büyük bulut tedarikçileri aynı zamanda LLM uygulamalarının ayarlanmasına ve değerlendirilmesine yardımcı olan benzer teknoloji türleri üzerinde çalışıyor” dedi.

Telif Hakkı © 2024 IDG Communications, Inc.



genel-13