ChatGPT geçen Kasım ayında gücünü açıkladığından beri, AI chatbot segmenti alternatiflerle doydu. Bu sohbet botları LLM, fiyat, kullanıcı arayüzü, internet erişimi ve diğer özellikler açısından farklılık gösterir. Bu da seçimi zorlaştırıyor.

Karşılaştırmayı kolaylaştırmak için, Büyük Model Sistem Organizasyonu (LMYSY Org), Berkeley’deki California Üniversitesi’ndeki öğrenciler ve öğretim üyeleri tarafından kurulan bir kuruluştur. Chatbot Arenası.

Chatbot Arena, LLM’ler için, kullanıcıların hangi LLM’den kaynaklandığını bilmeden bir bilgi istemi ekleyerek ve en iyi yanıtı seçerek iki rastgele modele meydan okuyabildiği bir kıyaslama platformudur.

“Birkaç ay önce planlanan tatile gideceğim için patronuma uzakta olacağımı bildiren bir e-posta yazar mısınız?”

Kullanıcılar bir sohbet botu seçtikten sonra, çıktıyı oluşturmak için hangi LLM’lerin kullanıldığını görebilirler.

LMSYS Org.

Chatbot Arena’yı denediğimde şu istemi kullandım: “Bir süre önce planlanan tatile gideceğim için patronuma uzakta olacağımı bildirmek için bana bir e-posta yazabilir misiniz? Birkaç ay önce?”

Sıralamalar şu anda GPT-4’ü birinci sıraya yerleştiriyor

İki yanıt çok farklıydı; biri e-posta için uygun olandan çok daha fazla bağlam, uzunluk ve doldurulacak alanlar sağlıyordu.


Chatbot Arenası


Sabrina Ortiz/ZDNET tarafından ekran görüntüsü

Kazanan olarak “Model B”yi seçtikten sonra, modele dayalı olarak LMSYS Org tarafından oluşturulan LLM olduğunu keşfettim. LLaMA Meta’dan, “vicuna-7b”. Kaybeden LLM, Nomic AI tarafından geliştirilen ve LLaMA 13B’den rafine edilen bir LLM olan “gpt4all-13b-snoozy” idi.

Sıralama şu anda OpenAI’nin en gelişmiş LLM’si olan GPT-4’ü 1227 Elo derecesi ile birinci sıraya yerleştiriyor. Anthropic tarafından geliştirilen bir LLM olan Claude-v1, 1227 Elo derecesi ile ikinci sırada.


En iyi yapay zeka sohbet botları için lider tablosu


LMSYS Kuruluşu

Belirli LLM’leri denemek istiyorsanız kullanışlıdır.

GPT-4, hem Bing Chat’te hem de ChatGPT Plus’ta bulunur ve bu ikisini, ZDNET’in AI sohbet robotları sıralamasıyla eşleşen, bugün mevcut olan en iyi sohbet robotları yapar.

Anthropic’in ikinci sohbet robotu Claude henüz halka açık değil, ancak kullanıcıların erken erişim için kaydolabilecekleri bir bekleme listesi var.

Google Bard’ın arkasındaki LLM olan PaLM 2’nin bir alt modeli olan PaLM-Chat-Bison-001, sıralamada sekizinci sırada yer alıyor. Bu sıralama, Bard’a yönelik genel düşünceyi yansıtıyor: O en kötüsü değil ama en iyilerinden biri de değil.

Chatbot Arena sitesinde, karşılaştırmak istediğiniz iki farklı modeli seçebileceğiniz bir seçenek var. Belirli LLM’leri denemek istiyorsanız bu özellik yararlı olabilir.


Kaynak : “ZDNet.com”



genel-15