Berkeley’deki California Üniversitesi’ndeki bilim insanları, robotik verilerin artırılmasına olanak tanıyan ve farklı robotlar arasında beceri aktarımını kolaylaştıran, RoVi-Aug adında yeni bir bilgi işlem çerçevesi geliştirdi. Bu çerçeve, görüntü verilerini artırmak ve farklı robotlar için farklı kamera türleriyle görevlerin sentezlenmiş görsel gösterimlerini oluşturmak için üretken modeller kullanır.

Araştırmacılar Lawrence Chen ve Chenfeng Xu liderliğindeki geliştirme ekibine göre, çalışmalarının amacı, farklı gövde ve özelliklere sahip robotlar arasında becerileri güvenilir bir şekilde aktaramayan mevcut algoritmaların sınırlamalarının üstesinden gelmekti. Mevcut robot eğitim veri setlerinin çoğunun dengesiz olduğunu ve belirli robot türlerinin aşırı eğitilmesine yol açabilecek yanlışlıklar içerdiğini belirttiler.

Chen ve Xu, “Modern makine öğrenimi sistemlerinin, özellikle de üretken modellerin başarısı, etkileyici bir genellenebilirlik gösteriyor ve robot bilimi araştırmacılarını, robotikte benzer genellenebilirliğin nasıl elde edilebileceğine bakmaya motive ediyor” dedi.

RoVi-Aug iki ayrı bileşenden oluşur: robotik büyütme modülü (Ro-Aug) ve bakış açısı büyütme modülü (Vi-Aug). İlk bileşen, çeşitli robotik sistemleri içeren gösteri verilerini sentezler ve ikincisi, farklı açılardan gösteriler üretir.


Kaynak: DALL-E

“Ro-Aug’ın iki temel özelliği var: robot segmentasyonu için ince ayarlı bir SAM modeli ve orijinal robotu bir başkasıyla değiştirmek için ince ayarlı ControlNet. Chen ve Xu, “Bu arada Vi-Aug, yeni sahne perspektifleri oluşturmak için son teknoloji ürünü yeni bir görüntü sentezi modeli olan ZeroNVS’yi kullanıyor ve modeli farklı kamera bakış açılarına uyarlanabilir hale getiriyor” diye açıkladı.

Araştırmacılar, genişletilmiş bir robot veri seti oluşturmak için çerçevelerini kullandılar ve öğrenme politikaları ve farklı robotlar arasında beceri aktarımı konusundaki etkinliğini test ettiler. Sonuçları, RoVi-Aug’un farklı robotlar ve kamera ayarları arasında iyi bir şekilde genellenen politika güncellemelerine izin verdiğini gösterdi.

Chen ve Xu, “En önemli yenilik, görüntü oluşturma ve yeni temsil sentezi gibi üretken modellerin çapraz somutlaştırılmış robot öğrenimi sorununa uygulanmasıdır” diye açıkladı.

Bu çalışma, robotların gelişimini ilerletebilir ve araştırmacıların sistemlerin beceri setlerini kolayca genişletmesine yardımcı olabilir. Gelecekte diğer ekipler tarafından farklı robotlar arasında beceri aktarımı yapmak veya daha etkili evrensel robot politikaları geliştirmek için kullanılabilir.

Örneğin, bir araştırmacının veri toplamak ve Franka robotunu görev politikası konusunda eğitmek için önemli çaba harcadığı ancak elinizde yalnızca bir UR5 robotunun olduğu bir durumu hayal edin. RoVi-Aug, Franka verilerini yeniden kullanmanıza ve ek eğitim gerektirmeden UR5 robotunda politikaları dağıtmanıza olanak tanır. Robot politikaları genellikle kamera bakış açısındaki değişikliklere duyarlı olduğundan ve farklı robotlar için aynı kamera açılarını ayarlamak zor olduğundan bu özellikle kullanışlıdır. RoVi-Aug bu tür ince ayarlara olan ihtiyacı ortadan kaldırır.


Lawrence Chen, Chenfeng Xu

Makalenin yazarlarına göre RoVi-Aug, güvenilir eğitim veri setlerinin kolayca derlenmesi için uygun maliyetli bir alternatif olabilir. Ayrıca yaklaşımlarının diğer robot veri kümelerine uygulanacak şekilde genişletilebileceğini ve görüntü oluşturmak yerine video oluşturma dahil olmak üzere RoVi-Aug’u daha da geliştirmeyi planladıklarını belirttiler.

“Ayrıca RoVi-Aug’u Open-X Düzenlemesi (OXE) veri kümesi gibi mevcut veri kümelerine uygulamayı planlıyoruz ve bu veriler üzerinde eğitilen genel robot politikalarının gelişmiş performans potansiyeli konusunda heyecan duyuyoruz. Araştırmacılar, RoVi-Aug’un yeteneklerinin genişletilmesinin, daha geniş bir robot ve görev yelpazesi için bu politikaların esnekliğini ve sağlamlığını önemli ölçüde artırabileceğini belirtti.



genel-22