OpenAI’nin Yeni Açık Ağırlıklı AI Modelleri
OpenAI, Salı günü gpt-oss-120b ve gpt-oss-20b adını verdiği iki yeni açık ağırlıklı AI reasoning modelini piyasaya sürdüğünü duyurdu. Bu modeller, Hugging Face adlı çevrimiçi geliştirici platformundan ücretsiz olarak indirilebiliyor. Şirket, bu modellerin bir dizi kıyaslama ölçütüne göre “en son teknoloji” olarak nitelendirildiğini belirtti.
Modellerin iki boyutu bulunmaktadır: gpt-oss-120b, tek bir Nvidia GPU ile çalışabilen daha büyük ve yetenekli bir modeldir. Diğer yandan, gpt-oss-20b ise, 16GB belleğe sahip bir tüketici dizüstü bilgisayarda çalışabilir. Bu çıkış, OpenAI’nin ilk “açık” dil modeli olma özelliğini taşıyor; zira GPT-2’den beri bu tarzda bir model piyasaya sürülmüyordu.
Açık Modellerin Kapasitesi
OpenAI, açık modelleri üzerinden karmaşık sorguları bulut tabanlı AI modellerine iletebileceğini belirtti. Yani, eğer OpenAI’nin açık modeli belirli bir görevi yerine getiremiyorsa, geliştiriciler bu açık modeli, şirketin daha yetenekli kapalı modellere bağlayabilir.
Geçmişte OpenAI, erken dönemlerinde bazı AI modellerini açık kaynaklı hale getirmişti, fakat daha sonraki yıllarda kapalı kaynak geliştirme yaklaşımını benimsedi. Bu strateji, OpenAI’nin AI modellerine API üzerinden erişim satarak büyük bir iş kurmasına yardımcı oldu. Ancak, CEO Sam Altman, Ocak ayında yaptığı bir açıklamada, yeni nesil teknolojiler açısından açık kaynak olmanın önemine vurgu yaptı.
Performans Değerlendirmesi
OpenAI, açık modelinin diğer açık ağırlıklı AI modelleri arasında önde olmasını sağlayacak bir performansa sahip olmayı amaçladı ve bu konuda başarılı olduğu iddia ediliyor. Codeforces adlı rekabetçi kodlama testinde, gpt-oss-120b toplamda 2622, gpt-oss-20b ise 2516 puan aldı. Bu sonuçlar, DeepSeek’in R1 modelini geride bırakırken, o3 ve o4-mini modellerinin gerisinde kaldı.
Bir başka test olan Humanity’s Last Exam üzerinde ise, gpt-oss-120b %19, gpt-oss-20b ise %17.3 puan aldı. Bu da, yine o3 modelinin gerisinde kalsa da DeepSeek ve Qwen’in en önde gelen açık modellerinden daha iyi performans gösterdiği anlamına geliyor.
Ayrıca, OpenAI’nin açık modellerinin hallusine oranı, önceki AI reasoning modellerine göre kayda değer şekilde daha yüksek. Hallusine, bir modelin yanlış bilgi vermesi veya gerçek olmayan içerikler üretmesi durumu olarak tanımlanıyor. OpenAI, açık modellerin belirsizlik oranının %49 ve %53 olduğunu belirtti; bu oran, önceki o1 modeline göre üç kat daha fazla.
Yeni Modellerin Eğitimi
OpenAI, açık modeller için benzer eğitim süreçleri uyguladığını ifade ediyor. Her bir açık model, belirli bir soru için daha az parametre kullanarak daha verimli çalışabilmesini sağlayan mixture-of-experts (MoE) yöntemini kullanıyor. gpt-oss-120b’nin toplamda 117 milyar parametre bulunurken, her bir token için yalnızca 5.1 milyar parametre aktif ediliyor.
Ayrıca, yüksek işlem gücüne sahip reinforcement learning (RL) kullanılarak eğitildiği belirtiliyor. Bu, AI modellerinin doğru ile yanlışı ayırt etmelerini sağlamak için simüle edilmiş ortamlarda çalışan büyük Nvidia GPU kümelemelerinin dahil edildiği bir süreçtir. Bu eğitim, OpenAI’nin o-serisindeki modellere benzer bir düşünce zinciri sürecini izliyor.
Sonuç olarak, OpenAI’nin açık AI modelleri, AI ajanlarını güçlendirmek için başarılı bir şekilde geliştirildi ve web arama veya Python kodu yürütme gibi araçları kullanma yeteneğine sahip. Ancak, bu açık modeller yalnızca metin girişi ile sınırlıdır; dolayısıyla, görüntü veya ses işleme yetenekleri bulunmamaktadır.
Açık Kaynak Lisansı ve Güvenlik Endişeleri
OpenAI, gpt-oss-120b ve gpt-oss-20b modellerini Apache 2.0 lisansı altında yayımladı. Bu lisans, işletmelerin OpenAI’nin açık modellerini kullanarak para kazanmasına izin verir. Ancak, AI2 gibi diğer AI laboratuvarlarının tam olarak açık kaynaklı tekliflerinin aksine, OpenAI, açık modellerin üretiminde kullanılan veri setlerini yayımlamayacağını belirtti.
Bu karar, AI model sağlayıcılarına karşı açılan çeşitli davalar göz önüne alındığında, pek de şaşırtıcı değil. OpenAI, güvenlik endişeleri nedeniyle açık modellerinin çıkarımını birkaç kez erteledi. Şirket, gpt-oss modellerinin kötü niyetli kişilerce siber saldırılarda veya biyolojik ve kimyasal silahların oluşturulmasında daha yararlı hale getirilip getirilmeyeceğini araştırdı.
Yapılan testlerde, OpenAI, gpt-oss’nin biyolojik yetenekleri marjinal olarak artırabileceğini buldu; ancak bu açık modellerin bu alanlarda yüksek tehlike eşik seviyelerine ulaşabileceğine dair bir kanıt bulamadı.
OpenAI’nin bu yeni modelleri, açık modeller arasında en son teknolojiye sahip gibi görünse de, geliştiriciler, DeepSeek R2 gibi diğer modellerin piyasaya sürülmesini heyecanla bekliyor. Bu durum, AI alanının sürekli olarak geliştiğini ve rekabetin daha da artacağını göstermektedir.


