
Microsoft, küçük dil modelleri (SLM’ler) adı verilen yeni bir akıl yürütme tekniğinin yakın zamanda geliştirilmesinden sonra potansiyel olarak bir atılım gerçekleştirdi. rStar-Matematik. Bağlam açısından bu teknik, SLM’lerin yeteneklerini geliştirerek, üstün modellerden ayrılmadan OpenAI’nin o1 akıl yürütme modelinin matematik akıl yürütme yeteneğiyle rekabet etmelerine ve hatta onu aşmalarına olanak tanıyor.
tarihinde yayınlanan araştırma makalesine göre arXiv.org:
“rStar-Math bunu, bir matematik politikası SLM’nin, SLM tabanlı bir süreç ödül modeli tarafından yönlendirilen test zamanı aramasını gerçekleştirdiği Monte Carlo Ağaç Arama (MCTS) aracılığıyla “derin düşünme” uygulayarak başarıyor.”
MCTS aracılığıyla, rStar-Math, karmaşık görevleri ve sorguları adım adım eleştirel bir şekilde analiz edebilir, böylece SML’lerin matematik problemlerini çözmesini kolaylaştırır. Ek olarak araştırmacılar, modelden doğal dil açıklamaları ve Python kodu da dahil olmak üzere düşünce zincirini sergilemesini isteyerek derin düşünmenin daha da ötesine geçiyor.
Teknik, SLM eğitimini zorlaştıran sorunları hafifletmek için tasarlanmış üç yeniliğe sahiptir:
- SLM politikasını eğitmek için kullanılan adım adım doğrulanmış akıl yürütme yörüngelerini oluşturmak için kapsamlı MCTS sunumları gerçekleştiren, kodla zenginleştirilmiş yeni bir CoT veri sentezi yöntemi.
- Saf adım düzeyinde puan açıklamasından kaçınan ve daha etkili bir süreç tercihi modeli (PPM) sağlayan yeni bir süreç ödül modeli eğitim yöntemi.
- SLM ve PPM politikasının sıfırdan oluşturulduğu ve muhakeme yeteneklerini geliştirmek için yinelemeli olarak geliştirildiği bir kendi kendini geliştirme tarifi.
Araştırma makalesi, “747 bin matematik problemi için milyonlarca sentezlenmiş çözümle” dört turlu kişisel gelişimin ayrıntılarını daha da detaylandırıyor; rStar-Math, matematik muhakemesini en son teknoloji seviyelere çıkarıyor. Paylaşılan kıyaslamalara göre teknik, Qwen2.5-Math-7B’yi %58,8’den %90,0’a ve Phi3-mini-3.8B’yi %41,4’ten %86,4’e ölçeklendiriyor. İlginç bir şekilde bu, SML’lerin OpenAI’nin o1 akıl yürütme modelini sırasıyla +%4,5 ve +%0,9 oranında aşmasına olanak tanıyor. Son olarak teknik, problemlerin %3,3’ünü çözerek Amerikan Davetli Matematik Sınavı’nda (AIME) lise yarışmacıları arasında ilk %20’nin arasına girdi.
Sarılma yüz araştırmacıların rStar-Math’i GitHub’da yayınlama planını vurguladı. Ancak makalenin araştırmacılarından biri olan Li Lyna Zhang, kodun “açık kaynak sürümü için hala inceleme sürecinden geçtiğini” belirtti (via Girişim Ritmi). “Depo şimdilik gizli kalacak. Lütfen bizi izlemeye devam edin!” araştırmacı ekledi.
Geçen Nisan ayında Microsoft, daha küçük olmasına rağmen GPT-3.5 ile benzer yeteneklere sahip olmayı vaat eden hafif bir yapay zeka modeli olan Phi-3 Mini’yi tanıtmıştı. GPT-4 veya diğer büyük dil modellerinden (LLM’ler) daha az veri kullanılarak eğitilmiştir, ancak Llama 2 gibi daha büyük modellerden daha iyi performans gösterebilir.
DEVAMINI OKU: OpenAI o1 kodlamanın tabutuna çakılan son çivi olabilir
Microsoft’un çığır açan tekniği, daha büyüğün her zaman daha iyi olmadığını kanıtlıyor ve potansiyel olarak verimlilik ve performans vaat ediyor. Bu, yeni nesil yapay zeka modellerini çalışır durumda tutmak için gereken geniş bilgi işlem kaynaklarına ilişkin artan endişelerden bazılarını gideriyor.

