2024, üretken yapay zeka/büyük temel modeller ve robot bilimi kesiti açısından büyük bir yıl olacak. Öğrenmeden ürün tasarımına kadar çeşitli uygulamaların potansiyeli etrafında dönen çok fazla heyecan var. Google’ın DeepMind Robotics araştırmacıları, alanın potansiyelini araştıran birkaç ekipten biri. İçinde bir blog yazısı Bugün ekip, robot biliminin biz insanların onlardan tam olarak ne istediğini daha iyi anlamasını sağlamak için tasarlanmış devam eden araştırmaların altını çiziyor.
Geleneksel olarak robotlar, yaşamları boyunca tek bir görevi tekrar tekrar yapmaya odaklanmışlardır. Tek amaçlı robotlar genellikle bu tek konuda çok iyidirler, ancak işlemlere istemeden değişiklikler veya hatalar eklendiğinde onlar bile zorluklarla karşılaşırlar.
Yeni açıklanan OtomatikRT büyük temel modelleri bir dizi farklı amaca yönlendirmek için tasarlanmıştır. DeepMind ekibi tarafından verilen standart bir örnekte sistem, daha iyi durumsal farkındalık için bir Görsel Dil Modelinden (VLM) yararlanarak başlıyor. AutoRT, çevrelerinin ve içindeki nesnelerin düzenini elde etmek için birlikte çalışan ve kameralarla donatılmış bir robot filosunu yönetme kapasitesine sahiptir.
Bu arada geniş bir dil modeli, uç efektörü de dahil olmak üzere donanım tarafından gerçekleştirilebilecek görevleri önerir. Yüksek Lisans, birçok kişi tarafından, daha doğal dil komutlarını etkili bir şekilde anlayan ve sabit kodlama becerilerine olan ihtiyacı azaltan robot teknolojisinin kilidini açmanın anahtarı olarak anlaşılmaktadır.
Sistem zaten son yedi ay boyunca epeyce test edildi. AutoRT aynı anda 20’ye kadar robotu ve toplam 52 farklı cihazı yönetme kapasitesine sahiptir. Sonuçta DeepMind, 6.000’den fazla görev dahil olmak üzere yaklaşık 77.000 deneme topladı.
Ekipteki bir diğer yenilik ise robotik öğrenme için video girişini kullanan RT-Trajectory’dir. Çok sayıda ekip, robotları geniş ölçekte eğitmek için bir yöntem olarak YouTube videolarının kullanımını araştırıyor, ancak RT-Trajectory, videonun üzerine hareket halindeki kolun iki boyutlu bir taslağını kaplayan ilginç bir katman ekliyor.
Ekip şunu belirtiyor: “RGB görüntüleri biçimindeki bu yörüngeler, robot kontrol politikalarını öğrenirken modele düşük düzeyde, pratik görsel ipuçları sağlıyor.”
DeepMind, 41 görevi test ederken, eğitimin RT-2 eğitiminin başarı oranını %29’a kıyasla %63 ile iki katına çıkardığını söylüyor.
Ekip, “RT-Trajectory, tüm robot veri kümelerinde bulunan ancak şu anda yeterince kullanılmayan zengin robotik hareket bilgilerinden yararlanıyor” diye belirtiyor. “RT-Trajectory, yalnızca yeni durumlarda etkili bir doğrulukla hareket edebilen robotlar oluşturmaya yönelik yolda yeni bir adımı temsil etmekle kalmıyor, aynı zamanda mevcut veri kümelerinden bilginin kilidini açmayı da temsil ediyor.”