Google DeepMind, Perşembe günü robotik ve görme dili modelleri (VLM’ler) alanında yapılan yeni gelişmeleri paylaştı. Teknoloji devinin yapay zeka (AI) araştırma bölümü, robotlarda yeni yetenekler geliştirmek için gelişmiş görme modelleriyle çalışıyordu. DeepMind, yeni bir çalışmada, Gemini 1.5 Pro ve uzun bağlam penceresinin kullanılmasının, bölümün artık robotlarının navigasyonunda ve gerçek dünya anlayışında çığır açan gelişmeler kaydetmesini sağladığını vurguladı. Bu yılın başlarında, Nvidia ayrıca insansı robotlarda gelişmiş yeteneklere güç veren yeni AI teknolojisini tanıttı.

Google DeepMind, Robotları Geliştirmek İçin Gemini AI’yı Kullanıyor

İçinde postalamak X’te (eski adıyla Twitter), Google DeepMind, robotlarını Gemini 1.5 Pro’nun 2 milyon token bağlam penceresini kullanarak eğittiğini açıkladı. Bağlam pencereleri, bir AI modelinin görebildiği bilgi penceresi olarak anlaşılabilir ve bu pencereyi kullanarak sorgulanan konu etrafındaki teğetsel bilgileri işler.

Örneğin, bir kullanıcı bir AI modeline “en popüler dondurma aromaları” hakkında soru sorarsa, AI modeli bu soruya ilişkin bilgi bulmak için dondurma ve aromalar anahtar kelimesini kontrol edecektir. Bu bilgi penceresi çok küçükse, AI yalnızca farklı dondurma aromalarının adlarıyla yanıt verebilecektir. Ancak, daha büyükse, AI ayrıca her dondurma aroması hakkında kaç makale olduğunu görebilecek ve hangisinin en çok bahsedildiğini bulabilecek ve “popülerlik faktörünü” çıkarabilecektir.

DeepMind, robotlarını gerçek dünya ortamlarında eğitmek için bu uzun bağlam penceresinden yararlanıyor. Bölüm, robotun bir ortamın ayrıntılarını hatırlayıp hatırlayamayacağını ve ortam hakkında bağlamsal veya belirsiz terimlerle sorulduğunda kullanıcılara yardımcı olup olamayacağını görmeyi amaçlıyor. Instagram’da paylaşılan bir videoda, AI bölümü, bir robotun kullanıcıya çizim yapabileceği bir yer sorduğunda onu bir beyaz tahtaya yönlendirebildiğini gösterdi.

Google DeepMind bir gönderide, “1.5 Pro’nun 1 milyon token bağlam uzunluğuyla desteklenen robotlarımız, bir alanda yollarını başarılı bir şekilde bulmak için insan talimatlarını, video turlarını ve sağduyulu muhakemeyi kullanabilir” ifadesini kullandı.

İçinde çalışmak arXiv’de (hakemli olmayan çevrimiçi bir dergi) yayınlanan DeepMind, bu atılımın ardındaki teknolojiyi açıkladı. Gemini’ye ek olarak, aynı zamanda kullanarak kendi Robotic Transformer 2 (RT-2) modeli. Hem web hem de robotik verilerinden öğrenen bir vizyon-dil-eylem (VLA) modelidir. Gerçek dünya ortamlarını işlemek ve bu bilgileri veri kümeleri oluşturmak için kullanmak için bilgisayarlı vizyonu kullanır. Bu veri kümesi daha sonra üretken AI tarafından işlenerek bağlamsal komutları parçalayıp istenen sonuçları üretebilir.

Şu anda, Google DeepMind bu mimariyi, çevre keşfi ve talimat rehberliğinde gezinmeyi içeren Çok Modlu Talimat Gezintisi (MIN) olarak bilinen geniş bir kategoride robotlarını eğitmek için kullanıyor. Bölüm tarafından paylaşılan gösteri meşruysa, bu teknoloji robotik bilimi daha da ilerletebilir.



genel-8