
Stanford Üniversitesi ve Washington Üniversitesi’nden araştırmacılar, Openai’nin O1 modeliyle performansta karşılaştırılabilir açık kaynaklı bir yapay zeka (AI) modeli geliştirdiler. Araştırmacıların temel amacı, güçlü bir akıl yürütme odaklı model yaratmak değil, San Francisco merkezli AI firmasının O1 Serisi modellerine test süresi ölçeklendirmesi için nasıl talimat verdiğini anlamaktı. Özellikle, araştırmacılar metodolojiyi sergileyebildiler ve çok daha az hesaplama kaynağı kullanırken modelin davranışını son derece düşük bir maliyetle çoğaltabildiler.
Araştırmacılar S1-32B AI modeli geliştirdi
Araştırmacılar, modeli geliştirme metodolojisi ve sürecini detaylandırdılar. çalışmak Baskı öncesi dergi Arxiv’de yayınlandı. İşlem, farklı bir AI modelinden sentetik bir veri kümesi oluşturmayı ve ablasyon ve denetimli ince ayar (SFT) gibi birkaç yeni teknik kullanmayı içeriyordu. Model bir github’da mevcuttur liste.
AI modelinin sıfırdan inşa edilmediğine dikkat edilmelidir. Geliştiriciler Qwen2.5-32b-in-in-in-in-in-in-in-in-in-in-in-in-in-in-somutu kullandı ve S1-32B Büyük Dil Modeli (LLM) oluşturmak için damıtıldı. Eylül 2024’te piyasaya sürülen model yeteneklidir, ancak büyüklüğü ve akıl yürütme yeteneklerinin eksikliği göz önüne alındığında, Openai’nin O1’iyle eşleşemez.
Süreç sırasında araştırmacılar, akıl yürütme izleri ve yanıtları oluşturmak için Gemini Flash Düşünme Uygulama İşleme Arayüzünü (API) kullandılar. API’dan toplam 59.000 üçlü soru, akıl yürütme izleri (düşünce zinciri veya karyolası) ve yanıtlar çıkarıldı. Daha sonra S1K adı verilen bir veri kümesi, 1.000 yüksek kaliteli, çeşitli ve zor soruların yanı sıra akıl yürütme izleri ve yanıtlar seçilerek oluşturuldu.
S1K veri kümesini oluşturduktan sonra, araştırmacılar QWEN2.5-32B-Instruct modelinde denetimli ince ayar yaptılar. Bunun için temel ince ayar hiperparametreleri kullanıldı. Damıtma işlemi 16 NVIDIA H100 GPU’da 26 dakikalık eğitim aldı.
Bu noktaya kadar, araştırmacıların Openai’nin modelleri “düşünmek” ve düşünme sürecini nasıl durdurmayı nasıl başardığı hakkında hiçbir fikri yoktu. Bu olmadan, bir model çıktısını ikinci olarak tahmin ettiği için süresiz olarak fazla düşünme riski taşır.
Modelin ince ayarını yaparken, araştırmacı ilginç bir şey buldu. Ekleyerek çıkarım süresini manipüle edebileceklerini buldular.
S1-32B modeli ile araştırmacılar, onu normal çıkarım süresinin ötesinde düşünmeye zorlamak için bir “bekleme” komutu eklediler. Eklendikten sonra, model çıktısını ikinci olarak tahmin etmeye ve doğrulamaya başladı. Ardından, etiket bu test süresi ölçekleme aşamasını kısaltmak veya uzatmak için kullanıldı.
Ardından, araştırmacılar ayrıca “alternatif” ve “HMM” gibi diğer birkaç ifadeyi denediler, ancak “bekleme” etiketi kullanılırken en iyi performans metriklerinin elde edildiğini buldular. Araştırmacılar, modeli O1’in performansına yakınlaştırarak, bunun Openai tarafından akıl yürütme modellerine ince ayar yapmak için kullanılan yöntem olabileceğini iddia ediyorlar.
Bir TechCrunch rapor Araştırmacıların S1-32B AI modelini 50 doların altında (kabaca Rs. 4.380) oluşturabildiklerini iddia ederek, akıl yürütme modelleri için eğitim sonrası bir yapı oluşturmanın son derece düşük bir maliyetle yapılabileceğini vurguluyor.

