Araştırmacılar yeni bir yapay zeka “ölçeklendirme yasası” keşfettiler mi? Bu ne sosyal medyada biraz vızıltı Öneriyor – ancak uzmanlar şüpheci.
AI ölçeklendirme yasaları, gayri resmi bir kavram, AI modellerinin performansının, bunları eğitmek için kullanılan veri kümelerinin boyutu ve bilgi işlem kaynakları arttıkça nasıl geliştiğini açıklar. Kabaca bir yıl öncesine kadar, her zaman daha büyük veri kümelerinde her zamankinden daha büyük modeller olan “öncesi eğitim” ü ölçeklendirmek, en azından çoğu sınır laboratuvarının onu benimsemesi anlamında baskın yasaydı.
Eğitim öncesi gitmedi, ancak eğitim sonrası ölçeklendirme ve test-zaman ölçeklendirme, iki ek ölçekleme yasası, tamamladı. Eğitim sonrası ölçeklendirme esasen bir modelin davranışını ayarlarken, test zamanı ölçeklendirme, bir tür “akıl yürütme” biçimini sürmek için çıkarım için daha fazla bilgi işlem uygulamayı gerektirir (bkz. R1 gibi modeller).
Google ve UC Berkeley araştırmacıları yakın zamanda bir kağıt Çevrimiçi olarak bazı yorumcuların dördüncü bir yasa olarak tanımladığı şey: “Çıkarım Zamanı Arama.”
Çıkarım-Zaman Araması, bir modele paralel bir sorguya birçok olası cevap oluşturur ve ardından grubun “en iyisini” seçer. Araştırmacılar, Google’ın Gemini 1.5 Pro gibi bir yıllık modelin performansını Openai’nin O1 ön görüşü “akıl yürütme” modelini bilim ve matematik ölçütleri üzerine aşan bir seviyeye yükseltebileceğini iddia ediyor.
Makalemiz bu arama eksenine ve ölçeklendirme eğilimlerine odaklanmaktadır. Örneğin, sadece rastgele 200 yanıtı ve kendini doğrulamayı örnekleyerek Gemini 1.5 (eski bir 2024 modeli!) O1 önlemini yener ve O1’e yaklaşır. Bu, finetuning, RL veya yer-gerçek doğrulayıcılar olmadan. pic.twitter.com/hb5fo7ifnh
– Eric Zhao (@Ericzhao28) 17 Mart 2025
“[B]Y sadece rastgele örnekleme 200 yanıtı ve kendini doğrulayıcı, Gemini 1.5-eski bir 2024 modeli-O1 öngörmeyi yener ve O1’e yaklaşıyor ”, bir Google doktora üyesi ve makalenin ortak yazarlarından biri olan Eric Zhao bir x’de yayın dizisi. “Sihir, kendi kendini doğrulamanın doğal olarak ölçekte daha kolay hale gelmesidir! Doğru bir çözüm seçmenin daha zor hale gelmesini beklersiniz, çözüm havuzunuz daha büyük olur, ancak bunun tersi durumdur!”
Bununla birlikte, bazı uzmanlar sonuçların şaşırtıcı olmadığını ve çıkarım süresi aramasının birçok senaryoda yararlı olmayabileceğini söylüyor.
Alberta Üniversitesi’nde bir AI araştırmacısı ve yardımcı doçent olan Matthew Guzdial, TechCrunch’a yaklaşımın iyi bir “değerlendirme işlevi” olduğunda en iyi çalıştığını söyledi – başka bir deyişle, bir sorunun en iyi cevabı kolayca tespit edilebildiğinde. Ancak çoğu sorgu o kadar kesilmiş ve kuru değil.
“[I]Ne istediğimizi tanımlamak için kod yazamıyoruz, kullanamayız [inference-time] Arama, ”dedi.“ Genel dil etkileşimi gibi bir şey için bunu yapamayız […] Genellikle çoğu sorunu çözmek için harika bir yaklaşım değil. ”
AI’da uzmanlaşmış King’s College London’da bir araştırma görevlisi olan Mike Cook, Guzdial’ın değerlendirmesiyle anlaştı ve kelimenin AI anlamında “akıl yürütme” arasındaki boşluğu vurguladığını da sözlerine ekledi.
“[Inference-time search] Modelin ‘akıl yürütme sürecini’ yükseltmiyor, ”dedi Cook.[I]Bu sadece çok güvenle desteklenen hatalar yapmaya eğilimli bir teknolojinin sınırlamaları etrafında çalışmanın bir yolu […] Sezgisel olarak, modeliniz zamanın% 5’ini bir hata yaparsa, aynı sorundaki 200 denemeyi kontrol etmek bu hataları kolaylaştırmalıdır. ”
Çıkarım süresi aramasının sınırlamaları olabilir, model “akıl yürütme” hesaplama verimli bir şekilde ölçeklendirmek isteyen bir AI endüstrisine hoş olmayan haberler olacaktır. Kağıt notunun ortak yazarları olarak, bugün akıl yürütme modelleri Binlerce Dolar Bilgi İşlem tek bir matematik probleminde.
Görünüşe göre yeni ölçeklendirme teknikleri arayışı devam edecek.

