X, chatbotunu ilk kez tanıttığında bir ödeme duvarının arkasındaydı. Ve X yakın zamanda Grok’u dünyaya açtı. Bu yüzden ona programlama testlerimi vermeye karar verdim.
Adından dolayı Grok her zaman ilgimi çekmiştir. Grok tarafından icat edildi Robert HeinleinEn sevdiğim bilim kurgu yazarlarından biri. Toplumsal normlar söz konusu olduğunda çok açık fikirliydi. Güçlü öyküler yazdı, öykülerinde harika bilimsel temalara yer verdi ve kitaplarına sıklıkla derin toplumsal yorumlar kattı.
O da var terimi icat etti “grok”, Mars dilinde birden fazla anlamı olan bir kelime. Bu anlayışın derin ve temel düzeyde mevcut olması nedeniyle “anlıyorum” şeklinde yorumlanabilir. Bu nedenle, bir AI sohbet robotu için mükemmel bir isim. Ancak… Grok’a hangi LLM’yi (geniş dil modeli) kullandığını sorduğumda, bana aynı zamanda onun ruhundan ve isyanından ilham aldığını da söylemeye karar verdi. Otostopçunun Galaksi Rehberi.

Ekran görüntüsü: David Gewirtz/ZDNET
Bununla birlikte programlama testlerime dalalım.
1. Bir WordPress eklentisi yazın
Bu, yapay zekanın PHP programlamayı ve bir WordPress eklentisinin nasıl oluşturulacağını bilmesini gerektiren bir kodlama testidir. Yapay zekadan isimleri rastgele düzenleyecek ve sıralayacak bir araç geliştirmesini istiyorum. Rastgele seçim aracı aynı zamanda birden fazla adı işlemeli, ancak aynı zamanda sonuçlarda yan yana bulunmamaları için bunları ayırmalıdır.
Son olarak, kodun net ve kaliteli bir kullanıcı arayüzü sağlaması gerekir; böylece adları yapıştırabilir, bir düğmeye tıklayabilir ve listesini alabilir.

Ekran görüntüsü: David Gewirtz/ZDNET
Bu görevi Grok’a verdim. Ve başardı. Arayüz açık ve işlevseldir. Ve en önemlisi, yapay zeka, kodun yapması gerekeni yaptı ve isimleri başarılı bir şekilde rastgele hale getirip ayırdı. Bu nedenle bu teste “kazanan” notunu veriyorum.

Ekran görüntüsü: David Gewirtz/ZDNET
2. Bir dize fonksiyonunu yeniden yazmak
İkinci testim, bir kullanıcı tarafından bana bildirilen bir sorunu düzeltti. Kurduğum kod, kullanıcı tarafından girilen bir sayının geçerli para biriminde olup olmadığını test etmek için tasarlandı. Benim hatam, kodun yalnızca tam sayılara izin vermesiydi. Yani 5€ bağışlayabilirsiniz ama 5,25€ bağışlayamazsınız.
Grok normal ifade kodunu başarıyla yeniden yazdı. Ancak oluşturduğu kod, geçerli bir parasal tutar olan “.5” gibi sayılara izin vermiyor. “0,5”e izin verir, ancak tüm kullanıcılar sent değerine sıfır eklemeyi seçmez. Ayrıca, çift dönüştürme gerçekleştirmek için oldukça verimsiz bir mekanizma kullanır ve sayılara dönüştürülemeyen dizeleri düzgün şekilde işlemez.
Şu anda bu nedenle hem zafer hem de yenilgi aşamasındayız.
3. Sinir bozucu bir hata bulun
Üçüncü test, WordPress çerçevesi ve API hakkında bilgi gerektirir. Yapay zekadan bulmasını istediğim hata, WordPress API gereksinimlerinin yanlış yorumlanmasından kaynaklanan ince bir hatadır.
Test ettiğim bazı LLM’ler sorunu yanlış anladı. Ancak Grok sorunu anladı ve bana işlevsel olarak doğru ve faydalı bir yanıt verdi.
Bu bizi iki galibiyet ve bir mağlubiyete getiriyor. Bu, Grok’u daha önce test ettiğim diğer LLM’lerin neredeyse yarısının önüne koyuyor. Bakalım dördüncü ve son testte neler olacak?
4. Bir senaryo yazın
Bu zor bir test çünkü yapay zekanın Mac için dikey komut dosyası yazma aracını bilmesini gerektiriyor. Klavye Ustasıhacmi nispeten küçüktür. Yapay zeka aynı anda üç farklı ortam için de kod yazabilmelidir: Keyboard Maestro, Chrome ve AppleScript.
Şu ana kadar yalnızca GPT-4 LLM’yi kullanan Google Gemini ve ChatGPT bu testi geçti. ChatGPT 3.5 bile başarısız oldu.
Grok bu nedenle dört zaferden üçünü kazandı ve bu da onu ChatGPT LLM’ye dayalı olmayan diğer tüm yapay zekaların önüne koyuyor.
Grok’un kodlama becerilerine ilişkin son düşünceler
Genel olarak Grok kendine hakim oldu. Başında sıfır olmayan parasal bir değere izin vermiş olsaydı mükemmel bir puan alırdı. Twitter’ın yerini aldığından beri X’teki değişiklikler hakkında ne düşüneceğimden emin değilim.
Ancak Grok, en azından programlama söz konusu olduğunda oldukça zorlu bir chatbot gibi görünüyor.
Ne düşünüyorsun? Grok’u kullandın mı? Aşağıdaki yorumlarda ne düşündüğünüzü bize bildirin.

