
Google DeepMind, Perşembe günü iki yeni yapay zeka (AI) modelini tanıttı ve bu da robotları gerçek dünya ortamlarında çok çeşitli görevler gerçekleştirmelerini sağlamak için kontrol edebildi. İkizler robotları ve Gemini Robotics-ER (somutlaşmış akıl yürütme) olarak adlandırılan bunlar, mekansal zeka gösterebilen ve gerçekleştirme eylemleri yapabilen ileri görüş dili modelleridir. Mountain View tabanlı teknoloji devi, Gemini 2.0 güçlü insansı robotları inşa etmek için Apptronik ile ortaklık kurduğunu da açıkladı. Şirket ayrıca bu modelleri daha fazla değerlendirmek için test ediyor ve onları nasıl daha iyi hale getireceklerini anlıyor.
Google DeepMind, Gemini Robotics AI modellerini ortaya çıkarır
Bir Blog yazısıDeepMind robotlar için yeni AI modellerini detaylandırdı. Google DeepMind’deki Robotik Kıdemli Direktörü ve Başkanı Carolina Parada, AI’nın fiziksel dünyadaki insanlara yardımcı olması için “somutlaşmış” akıl yürütmeyi – fiziksel dünyayı etkileşim kurma ve anlama ve görevleri tamamlamak için eylemler yapma yeteneği göstermeleri gerektiğini söyledi.
İki AI modelinin ilki olan Gemini Robotics, Gemini 2.0 modeli kullanılarak oluşturulan gelişmiş bir görme-dil-aksiyon (VLA) modelidir. Modelin robotları doğrudan kontrol etmesini sağlayan yeni bir “fiziksel eylem” modalitesine sahiptir.
DeepMind, fiziksel dünyada yararlı olmak için robotik için AI modellerinin üç temel yetenek gerektirdiğini vurguladı – genellik, etkileşim ve el becerisi. Genellik, bir modelin farklı durumlara uyum sağlama yeteneğini ifade eder. İkizler Robotics “yeni nesneler, çeşitli talimatlar ve yeni ortamlarla uğraşmakta becerikli” diyor şirket. Dahili testlere dayanarak, araştırmacılar AI modelini kapsamlı bir genelleme ölçütü üzerindeki performansı iki katına çıkardılar.
AI modelinin etkileşimi Gemini 2.0’ın temeli üzerine inşa edilmiştir ve her gün, konuşma dilinde ve farklı dillerde ifade edilen komutları anlayabilir ve yanıtlayabilir. Google, modelin aynı zamanda çevresini sürekli olarak izlediğini, çevredeki değişiklikleri veya talimatları algıladığını ve eylemlerini girdiye göre ayarladığını iddia etti.
Son olarak DeepMind, Gemini robotlarının fiziksel çevrenin kesin manipülasyonunu gerektiren son derece karmaşık, çok aşamalı görevler yapabileceğini iddia etti. Araştırmacılar, AI modelinin bir parça kağıt katlamak veya bir atıştırmalık bir çantaya paketlemek için robotları kontrol edebileceğini söyledi.
İkinci AI modeli Gemini Robotics-ER de bir vizyon dili modelidir, ancak mekansal akıl yürütmeye odaklanmaktadır. Gemini 2.0’ın kodlama ve 3D algılamasından yola çıkarak AI modelinin, gerçek dünyada bir nesneyi manipüle etmek için doğru hareketleri anlama yeteneğini gösterdiği söyleniyor. Bir örneği vurgulayan Parada, modelin bir kahve kupası gösterildiğinde, iki parmaklı bir kavram için güvenli bir yörünge boyunca sapı alması için bir komut oluşturabildiğini söyledi.
AI modeli, fiziksel dünyada bir robotu kontrol etmek için algı, devlet tahmini, mekansal anlayış, planlama ve kod üretimi de dahil olmak üzere çok sayıda adım gerçekleştirir. Özellikle, iki AI modelinden hiçbiri halka açık alanda mevcut değildir. DeepMind, teknolojiyi yayınlamadan önce önce AI modelini insansı bir robota entegre edecek ve yeteneklerini değerlendirecektir.

