Yapay zeka tabanlı sohbet robotlarının son aylarda dünyayı kasıp kavurmasının bir nedeni, ister bir reklam kampanyası oluşturmak ister bir özgeçmiş yazmak olsun, çeşitli amaçlar için metin oluşturabilmeleri veya inceleyebilmeleridir.
Bu sohbet botları, insan zekasını taklit edebilen ve metin içeriğinin yanı sıra ses, video, resimler ve bilgisayar kodu oluşturabilen büyük dil modeli (LLM) algoritmaları tarafından desteklenmektedir. LLM’ler, doğal dil girdilerine insan benzeri yanıtlar üretmek için çok sayıda makale, kitap veya internet tabanlı kaynak ve diğer girdiler üzerinde eğitilmiş bir tür yapay zekadır.
Artan sayıda teknoloji firması, uygulama görevlerini otomatikleştirmek için iş kullanımı için LLM’lere dayalı üretken yapay zeka araçlarını tanıttı. Örneğin, Microsoft geçen hafta sınırlı sayıda kullanıcıya OpenAI’nin ChatGPT’sine dayalı bir sohbet robotu sundu; Microsoft 365’te yerleşiktir ve CRM ile ERP uygulama işlevlerini otomatikleştirebilir.
Satış ekibiBir kullanıcı istemi aracılığıyla yazılım kodu oluşturan üretici yapay zekaya bir örnek. Bu durumda, Salesforce’un Einstein sohbet robotu, OpenAI’nin GPT-3.5 büyük dil modeli kullanılarak etkinleştirildi.
Örneğin, yeni Microsoft 365 Copilot, bir belgenin ilk taslağını oluşturmak için Word’de kullanılabilir ve potansiyel olarak yazma, kaynak bulma ve düzenleme için saatlerce harcanan zamandan tasarruf sağlar. Satış ekibi ayrıca GPT tabanlı bir sohbet robotu yayınlamayı planladığını da duyurdu CRM platformuyla kullanım için.
OpenAI’nin GPT-4’ü gibi çoğu LLM, bir sonraki kelime veya içerik tahmin motorları olarak önceden eğitilir – çoğu işletme onları “kutudan çıktığı gibi” bu şekilde kullanır. LLM tabanlı sohbet robotları kendi paylarına düşen hataları üretirken, önceden eğitilmiş LLM’ler, en azından bir atlama noktası olarak kullanılabilecek, çoğunlukla doğru ve çekici içeriği beslemede nispeten iyi çalışır.
Bununla birlikte, birçok endüstri, jargonunu anlayan ve kullanıcılarına özel içerik üreten daha özelleştirilmiş LLM algoritmalarına ihtiyaç duyar. Örneğin, sağlık sektörü için LLM’lerin elektronik sağlık kayıtlarını (EHR’ler) işlemesi ve yorumlaması, tedavi önermesi veya doktor notlarına veya ses kayıtlarına dayalı bir hasta sağlık hizmeti özeti oluşturması gerekebilir. Finansal hizmetler endüstrisine ayarlanmış bir LLM, tüketicileri korumak için kazanç görüşmelerini özetleyebilir, toplantı dökümleri oluşturabilir ve dolandırıcılık analizi yapabilir.
Çeşitli endüstrilerde, yüksek derecede yanıt doğruluğu sağlamak çok önemli olabilir.
Çoğu LLM’ye, kullanıcının LLM’nin nasıl yanıt vereceğine ilişkin parametreler veya ayarlamalar oluşturmasına izin veren bir uygulama programlama arabirimi (API) aracılığıyla erişilebilir. Chatbot’a gönderilen bir soru veya istek çağrılır. bir bilgi istemi, yani kullanıcı bir yanıt istiyor. İstemler doğal dil soruları, kod parçacıkları veya komutlar olabilir, ancak LMM’nin işini doğru bir şekilde yapması için istemlerin yerinde olması gerekir.
Ve bu gereklilik yeni bir becerinin doğmasına neden oldu: hızlı mühendislik.
Hızlı mühendislik açıkladı
İstem mühendisliği, istenen sonuçları elde etmek için büyük dil modelleri için metin istemleri oluşturma ve optimize etme sürecidir. “[It] Ürün prototipleme ve keşifte hızlı yineleme için LLM’lere yardımcı oluyor, çünkü LLM’yi görev tanımıyla hızlı ve kolay bir şekilde daha iyi uyum sağlayacak şekilde uyarlıyor, “diyor Marshall Choy, ürün kıdemli başkan yardımcısı SambaNova Sistemleriyapay zeka (AI) için yarı iletkenler yapan bir Silikon Vadisi girişimi.
LLM’ler oluşturan ve barındıran topluluk odaklı bir platform olan Hugging Face’in makine öğrenimi mühendisi Eno Reyes’e göre, belki de kullanıcılar için önemli olan hızlı mühendislik, BT ve iş profesyonelleri için hayati bir beceri haline gelmeye hazırlanıyor.
Neil Lockhart/Shutterstock“Yazılım, BT ve danışmanlıkta tanıdığım birçok kişi, kişisel işleri için her zaman hızlı mühendislik kullanıyor,” dedi Reyes, bir e-posta yanıtında Bilgisayar Dünyası. “LLM’ler çeşitli endüstrilere giderek daha fazla entegre hale geldikçe, üretkenliği artırma potansiyelleri çok büyük.”
Reyes, hızlı mühendisliği etkin bir şekilde kullanarak, iş kullanıcılarının müşteri desteğinden içerik üretimine ve veri analizine kadar belirli görevlerini daha verimli ve doğru bir şekilde gerçekleştirmek için LLM’leri optimize edebileceğini söyledi.
Şu anda en iyi bilinen LLM – OpenAI’nin GPT-3’ü – son derece popüler olan ChatGPT sohbet robotunun temelidir. GPT-3 LLM, kısa yazılı istemlerle metin ve bilgisayar kodu oluşturabilen 175 milyar parametreli bir model üzerinde çalışır. OpenAI’nin en son sürümü olan GPT-4’ün 280 milyara kadar parametreye sahip olduğu tahmin ediliyor ve bu da doğru yanıtlar üretme olasılığını çok daha artırıyor.
OpenAI’nin GPT LLM’sinin yanı sıra, popüler üretken yapay zeka platformları aşağıdakiler gibi açık modelleri içerir: Sarılma Yüzü BLOOM Ve XLM-RoBERTa, Nvidia’nın NeMO LLM’si, XLNet, Co: burada Ve GLM-130B.
Hızlı mühendislik yeni ortaya çıkan bir disiplin olduğundan, işletmeler yapay zeka uygulamalarından en iyi yanıtları almanın bir yolu olarak kitapçıklara ve bilgi istemi kılavuzlarına güveniyor. Bilgi istemleri için ortaya çıkan pazar yerleri bile var, örneğin ChatGPT için en iyi 100 istem.
Gartner Research’ün seçkin başkan yardımcısı analist Arun Chandrasekaran, “İnsanlar anında öneriler bile satıyor,” dedi ve son zamanlarda üretken yapay zekaya olan ilginin, daha iyi hızlı mühendislik ihtiyacına ışık tuttuğunu ekledi.
“Nispeten daha yeni bir alan. Üretken yapay zeka uygulamaları genellikle kendi kendini denetleyen dev yapay zeka modellerine dayanıyor ve bu nedenle onlardan en iyi yanıtları almak için daha fazla teknik bilgi, deneme ve ek çaba gerekiyor. Artan olgunlukla, yapay zeka modeli yaratıcılarından yapay zeka modellerinden ve uygulamalarından en iyi şekilde yararlanmanın etkili yollarına ilişkin daha iyi rehberlik ve en iyi uygulamaları görebileceğimize eminim.”
İyi girdi, iyi çıktıya eşittir
LLM’lerin makine öğrenimi bileşeni, veri girişinden otomatik olarak öğrenir. Başlangıçta LLM oluşturmak için kullanılan GPT-4 gibi verilere ek olarak, OpenAI adlı bir şey yarattı. Pekiştirmeli Öğrenme İnsan Geri Bildirimibir insanın modeli insan benzeri cevaplar verme konusunda eğittiği yer.
Örneğin, bir kullanıcı LLM’ye bir soru çerçeveleyecek ve ardından ideal yanıtı yazacaktır. Daha sonra kullanıcı modele aynı soruyu tekrar soracak ve model birçok farklı yanıt verecektir. Gerçeklere dayalı bir soruysa, yanıtın aynı kalması umulur; açık uçlu bir soruysa amaç, birden çok, insan benzeri yaratıcı yanıtlar üretmektir.
Örneğin, bir kullanıcı ChatGPT’den Hawaii’de bir kumsalda oturan bir kişi hakkında bir şiir oluşturmasını isterse, beklenti her seferinde farklı bir şiir üretmesidir. Chandrasekaran, “Yani, insan eğitmenlerinin yaptığı, yanıtları en iyiden en kötüye doğru derecelendirmek” dedi. “Bu, en kötü yanıtları en aza indirmeye çalışırken daha insan benzeri veya en iyi yanıtı verdiğinden emin olmak için modele bir girdi. Ama soruları nasıl şekillendiriyorsunuz? [has] bir modelden elde ettiğiniz çıktı üzerinde büyük bir etki.”
Kuruluşlar, o şirketin içinde bulunan özel veri kümelerini alarak bir GPT modelini eğitebilir. Örneğin, kurumsal verileri alıp etiketleyebilir ve kalitesini artırmak için açıklama ekleyebilir ve ardından GPT-4 modeline alabilirler. Bu, modelin ince ayarını yaparak söz konusu kuruluşa özgü soruları yanıtlayabilir.
İnce ayar ayrıca sektöre özel olabilir. Halihazırda, GPT-4 alan ve finansal hizmetler gibi dikey sektörlere özgü pek çok bilgiyi alan start-up’lardan ortaya çıkan bir küçük ev endüstrisi var.
“Lexus-Nexus ve Bloomberg bilgilerini alabilirler, 8K ve 10K raporları gibi SEC bilgilerini alabilirler. Ancak asıl mesele şu ki, model o alana çok özel çok fazla dil veya bilgi öğreniyor,” dedi Chandrasekaran. “Dolayısıyla ince ayar, endüstri düzeyinde veya organizasyonel düzeyde olabilir.”
Örneğin, harvey “avukatlar için yardımcı pilot” veya hukuk uzmanları için ChatGPT’nin bir sürümünü oluşturmak üzere OpenAI ile ortaklık kuran bir girişimdir. Chandrasekaran, avukatların, belirli yargıçların bir sonraki davalarına hazırlanmaları için herhangi bir yasal önceliği keşfetmek için özelleştirilmiş ChatGPT sohbet robotunu kullanabileceğini söyledi.
Chandrasekaran, “İstemleri satmanın değerini dil için değil, görseller için görüyorum” dedi. “Üretken yapay zeka alanında, metinden görüntüye modeller de dahil olmak üzere her türden model var.”
Örneğin, bir kullanıcı, ayda tıngırdatarak uzaklaşan bir gitaristin görüntüsünü üretmek için üretken bir AI modeli talep edebilir. Chandrasekaran, “Bence metinden resme etki alanı, hızlı pazarlarda daha fazla vurgu yapıyor” dedi.
Tek noktadan LLM merkezi olarak Hugging Face
Hugging Face, BLOOM da dahil olmak üzere kendi LLM’lerinden bazılarını oluştururken, kuruluşun birincil rolü, GitHub’ın kod için yaptığı gibi, üçüncü taraf makine öğrenimi modelleri için bir merkez olmaktır; Hugging Face şu anda 100.000’den fazla makine öğrenimi modeline ev sahipliği yapıyor.
Yeni modeller açık kaynaklı olduğundan, genellikle merkezde kullanıma sunulur ve yeni ortaya çıkan açık kaynaklı LLM’ler için tek durak noktası oluşturur.
Kullanıcılar, Hugging Face’i kullanarak belirli bir iş veya endüstri için bir LLM’ye ince ayar yapmak için kuruluşun “TransformatörlerAPI’ler ve “Veri kümeleri” kitaplıkları. Örneğin, finansal hizmetlerde, bir kullanıcı aşağıdakiler gibi önceden eğitilmiş bir LLM’yi içe aktarabilir: Flan-UL2, finansal haber makalelerinden oluşan bir veri kümesi yükleyin ve bu makalelerin özetlerini oluşturmak üzere modelde ince ayar yapmak için “transformers” eğiticisini kullanın. ile entegrasyonlar AWS, Derin HızVe Hızlanmak eğitimi daha da kolaylaştırın ve optimize edin.
Reyes’e göre tüm süreç 100’den az kod satırında yapılabilir.
Hızlı mühendisliğe başlamanın bir başka yolu da Hugging Face’in Inference API’sini içerir; Reyes’e göre 80.000’den fazla trafo modelini destekleyen basit bir HTTP istek uç noktası. Reyes, “Bu API, kullanıcıların metin istemleri göndermesine ve LLM’ler de dahil olmak üzere platformumuzdaki açık kaynaklı modellerden yanıtlar almasına olanak tanıyor” dedi. “Daha da basite gitmek istiyorsanız, LLM modellerindeki çıkarım widget’ını kullanarak aslında kodsuz metin gönderebilirsiniz. Sarılma Yüz merkezi”
Az atış ve sıfır atış öğrenme
LLM bilgi istemi mühendisliği tipik olarak iki biçimden birini alır: birkaç aşamalı ve sıfır aşamalı öğrenme veya eğitim.
Sıfır vuruşlu öğrenme, basit bir talimatı LLM’den beklenen bir yanıt üreten bir bilgi istemi olarak beslemeyi içerir. Bir LLM’ye, bu belirli görevler için etiketlenmiş verileri kullanmadan yeni görevleri gerçekleştirmeyi öğretmek için tasarlanmıştır. Sıfır vuruşu pekiştirmeli öğrenme olarak düşünün.
Tersine, az atışlı öğrenme, LLM’yi istenen yanıtlar için eğitmek için az miktarda örnek bilgi veya veri kullanır. Birkaç adımda öğrenme üç ana bileşenden oluşur:
- Görev tanımı: Modelin ne yapması gerektiğine dair kısa bir açıklama, örneğin “İngilizce’yi Fransızca’ya çevir”
- örnekler: Modelden ne yapması beklendiğini gösteren birkaç örnek, örneğin, “su samuru => loutre de mer”
- Çabuk: Modelin “peynir => ” gibi eksik metni oluşturarak tamamlaması gereken yeni bir örneğin başlangıcı
Gerçekte, Gartner’dan Chandrasekaran’a göre, çoğu model hala geliştirmenin erken bir aşamasında olduğu için, bugün ihtiyaçlarına uygun özel eğitim modellerine sahip çok az kuruluş var. Birkaç adımda ve sıfır adımda öğrenme yardımcı olabilirken, mühendisliği bir beceri olarak hızlı öğrenmek hem BT hem de iş kullanıcıları için önemlidir.
Chandrasekaran, “Temel modeller birkaç adımda ve sıfır adımda öğrenmede iyi olduğundan, bilgi istemi mühendisliği bugün sahip olunması gereken önemli bir beceridir, ancak performansları birçok yönden bilgi istemlerini metodik olarak nasıl oluşturduğumuzdan etkilenir” dedi. “Kullanım durumuna ve etki alanına bağlı olarak, bu beceriler hem BT hem de iş kullanıcıları için önemli olacaktır.”
Çoğu API, kullanıcıların kendi bilgi istemi mühendisliği tekniklerini uygulamasına izin verir. Reyes’e göre, bir kullanıcı bir LLM’ye metin gönderdiğinde, belirli sonuçlara ulaşmak için istemleri iyileştirme potansiyeli vardır.
Reyes, “Ancak bu esneklik, hızlı enjeksiyon gibi kötü niyetli kullanım durumlarına da kapı açıyor” dedi. “Örnekler gibi [Microsoft’s] Bing’in Sidney’i insanların hızlı mühendislikten istenmeyen amaçlar için nasıl yararlanabileceğini gösterdi. Büyüyen bir çalışma alanı olarak, hem kötü amaçlı kullanım durumlarında hızlı enjeksiyonu ele almak hem de gizli test için “red-teaming”i ele almak, gelecek için çok önemli olacak ve LLM’lerin çeşitli uygulamalarda sorumlu ve güvenli kullanımını sağlayacaktır.”
Telif hakkı © 2023 IDG Communications, Inc.

