Google DeepMind’ın robotik ekibi, robotlara bir insan stajyerin nasıl öğreneceğini öğretiyor: bir video izleyerek. Ekip yeni bir kağıt Google’ın Gemini 1.5 Pro jeneratif yapay zeka modeliyle donatılmış RT-2 robotlarının, videolardan bilgi toplayarak nasıl dolaşacaklarını öğrenebildiğini ve hatta varış noktalarında istekleri nasıl yerine getirebildiğini gösteriyor.
Gemini 1.5 Pro modelinin uzun bağlam penceresi sayesinde, bir robotu yeni bir stajyer gibi eğitmek mümkün. Bu pencere, yapay zekanın aynı anda kapsamlı miktarda bilgiyi işlemesine olanak tanır. Araştırmacılar, ev veya ofis gibi belirli bir alanın video turunu filme alırdı. Ardından, robot videoyu izler ve çevre hakkında bilgi edinirdi.
Video turlarındaki detaylar robotun hem sözlü hem de görüntü çıktılarını kullanarak öğrendiği bilgiye dayalı görevleri tamamlamasını sağlar. Robotların çevreleriyle insan davranışını anımsatan şekillerde nasıl etkileşime girebileceğini göstermenin etkileyici bir yoludur. Aşağıdaki videoda nasıl çalıştığını ve robotun gerçekleştirebileceği farklı görevlerin örneklerini görebilirsiniz.
Sınırlı bağlam uzunluğu, birçok AI modelinin ortamları hatırlamasını zorlaştırır. 🌐1.5 Pro’nun 1 milyon jetonluk bağlam uzunluğuyla desteklenen robotlarımız, bir alanda yollarını başarılı bir şekilde bulmak için insan talimatlarını, video turlarını ve sağduyulu muhakemeyi kullanabilir. pic.twitter.com/eIQbtjHCbW11 Temmuz 2024
Robot AI Uzmanlığı
Bu gösteriler de nadir rastlanan tesadüfler değil. Pratik testlerde, Gemini destekli robotlar 9.000 fit karelik bir alanda çalıştı ve %90’lık bir başarı oranıyla 50’den fazla farklı kullanıcı talimatını başarıyla takip etti. Bu yüksek doğruluk seviyesi, AI destekli robotlar için birçok potansiyel gerçek dünya kullanım alanı açıyor, evde ev işlerinde veya işte basit veya daha karmaşık görevlerde yardımcı oluyor.
Bunun nedeni, Gemini 1.5 Pro modelinin daha dikkat çekici yönlerinden birinin çok adımlı görevleri tamamlama yeteneği olmasıdır. DeepMind’ın araştırması, robotların bir buzdolabına giderek, içindekileri görsel olarak işleyerek ve ardından geri dönüp soruyu yanıtlayarak belirli bir içeceğin mevcut olup olmadığı gibi soruları nasıl yanıtlayacaklarını çözebildiklerini buldu.
Tüm eylem dizisinin planlanması ve gerçekleştirilmesi fikri, çoğu robot için geçerli olan tek adımlı emirlerin ötesine geçen bir anlayış ve uygulama düzeyini göstermektedir.
Ancak bu robotun yakın zamanda satışta olmasını beklemeyin. Öncelikle, her bir talimatı işlemek 30 saniyeye kadar sürüyor ve bu çoğu durumda bir şeyi kendiniz yapmaktan çok daha yavaş. Yapay zeka modeli ne kadar gelişmiş olursa olsun, gerçek dünyadaki evlerin ve ofislerin kaosu bir robot için kontrollü bir ortamdan çok daha zor olacaktır.
Yine de, Gemini 1.5 Pro gibi AI modellerini robotikle bütünleştirmek, bu alanda daha büyük bir sıçramanın parçasıdır. Gemini veya rakipleri gibi modellerle donatılmış robotlar sağlık hizmetlerini, nakliyeyi ve hatta temizlik görevlerini dönüştürebilir.