Bunu yapmak için, Stanford ve Washington Üniversitesi’ndeki araştırmacılar, Google’ın AI akıl yürütme modeli Gemini 2.0 Flash Düşünme Deneysel olan cevaplarını kullanarak S1’i daha büyük olanlar tarafından üretilen cevaplardan çizmesine izin veren damıtma olarak bilinen bir yöntem kullandılar. Google’s Hizmet Şartları Şirketin AI modellerini “rekabet eden modeller geliştirmek” için Gemini’nin API’sını kullanamayacağınızı unutmayın. Eşek Yorum isteği ile Google’a ulaştı ancak hemen duymadım.
Araştırmacılar S1’i Alibaba Cloud’dan açık kaynaklı bir model olan Qwen2.5’e dayandılar. Başlangıçta modeli eğitmek için 59.000 sorudan oluşan bir havuzla başladılar, ancak daha büyük veri setinin sadece 1.000’lik bir kümelenmiş set üzerinde “önemli kazançlar” sunmadığını buldular. Araştırmacılar, modeli sadece 16 NVIDIA H100 GPU’da eğittiklerini söylüyorlar.
S1 modeli ayrıca, bir cevap üretmeden önce modelin daha uzun süre “düşünmesini” sağlayan test-zaman ölçeklendirme adı verilen bir teknik kullanır. Makalede belirtildiği gibi, araştırmacılar modeli modelin yanıtına “bekle” ekleyerek akıl yürütmeye devam etmeye zorladılar. “Bu, modelin cevabını iki katına çıkarmasına ve genellikle yanlış akıl yürütme adımlarını düzeltmesine neden olabilir” diyor.
Openai’nin O1 akıl yürütme modeli benzer bir yaklaşım kullanıyor, Buzzy AI Startup Deepseek’in R1 modelinin başlatılmasıyla, maliyetin bir kısmında eğitildiğini iddia ettiği bir şey. Openai o zamandan beri Deepseek’i, bir rakip inşa etmek için modellerinden bilgi damıtmakla ve hizmet şartlarını ihlal etmekle suçladı. S1’e gelince, araştırmacılar S1’in “Rekabet Matematik Sorularına O1 görüşünü%27’ye kadar aştığını” iddia ediyor.
Daha küçük ve daha ucuz AI modellerinin yükselişi tüm endüstriyi yükseltmekle tehdit ediyor. Openai, Microsoft, Meta ve Google gibi büyük şirketlerin binlerce NVIDIA GPU ile dolu büyük veri merkezleri inşa ederken milyarlarca dolarlık eğitim AI harcamaları gerekmediğini kanıtlayabilirler.

