Google, robotlarını Gemini AI ile eğitiyor, böylece navigasyonda ve görevleri tamamlamada daha iyi hale gelebiliyorlar. DeepMind robotik ekibi bir yeni araştırma makalesi Gemini 1.5 Pro’nun uzun bağlam penceresinin (bir yapay zeka modelinin ne kadar bilgi işleyebileceğini belirler) kullanılmasının, kullanıcıların doğal dil talimatlarını kullanarak R2-T robotlarıyla daha kolay etkileşim kurmasına nasıl olanak tanıdığını anlatıyor.

Bu, araştırmacıların Gemini 1.5 Pro’yu kullanarak robotun çevreyi öğrenmesi için videoyu “izlemesini” sağlayarak ev veya ofis alanı gibi belirlenmiş bir alanın video turunu filme alarak çalışır. Robot daha sonra sözlü ve/veya görüntü çıktılarını kullanarak gözlemlediklerine dayanarak komutlar alabilir – örneğin, bir telefon gösterildikten ve “bunu nerede şarj edebilirim?” diye sorulduğunda kullanıcıları bir elektrik prizine yönlendirmek gibi. DeepMind, Gemini ile çalışan robotunun 9.000 metrekarelik bir çalışma alanında verilen 50’den fazla kullanıcı talimatında %90’lık bir başarı oranına sahip olduğunu söylüyor.

Araştırmacılar ayrıca Gemini 1.5 Pro’nun droid’lerinin sadece navigasyonun ötesinde talimatları nasıl yerine getireceklerini planlamalarını sağladığına dair “ön kanıtlar” buldular. Örneğin, masasında bir sürü kola kutusu olan bir kullanıcı droide en sevdiği içeceğin mevcut olup olmadığını sorduğunda, ekip Gemini’nin “robotun buzdolabına gitmesi, kola olup olmadığını incelemesi ve ardından sonucu bildirmek için kullanıcıya geri dönmesi gerektiğini bildiğini” söyledi. DeepMind bu sonuçları daha fazla araştırmayı planladığını söylüyor.

Google tarafından sağlanan video gösterileri etkileyici olsa da, araştırma makalesine göre droid her isteği onayladıktan sonra yapılan bariz kesintiler, bu talimatları işlemenin 10-30 saniye arasında sürdüğünü gizliyor. Evlerimizi daha gelişmiş çevre haritalama robotlarıyla paylaşmamız biraz zaman alabilir, ancak en azından bunlar kayıp anahtarlarımızı veya cüzdanlarımızı bulabilir.



genel-2