Nvidia, CES 2025’te bilgisayarınızın masaüstünde yaşayan bir prototip yapay zeka avatarını tanıttı. Yapay zeka asistanı, R2Xbir video oyunu karakterine benzer ve bilgisayarınızdaki uygulamalarda gezinmenize yardımcı olabilir.
R2X avatarı, Nvidia’nın yapay zeka modelleri kullanılarak oluşturuluyor ve canlandırılıyor ve kullanıcılar, avatarı OpenAI’nin GPT-4o veya xAI’nin Grok’u gibi tercih ettikleri popüler LLM’lerde çalıştırabiliyor. Kullanıcılar R2X ile metin ve ses yoluyla konuşabilir, işlenmek üzere ona dosya yükleyebilir ve hatta AI asistanının ekranınızda veya kameranızda canlı olarak olup bitenleri görüntülemesini etkinleştirebilir.
Teknoloji şirketleri son zamanlarda sadece video oyunlarında değil, aynı zamanda kurumsal ve bireysel müşteriler için de çok sayıda yapay zeka avatarı yaratıyor. İlk demolar tuhaf ama bazıları bu avatarların yapay zeka asistanları için umut verici bir kullanıcı arayüzü olduğunu düşünüyor. Nvidia, R2X ile insan gibi görünen ve hisseden bir yapay zeka asistanı yaratmak için üretken video oyunu yeteneklerini en son teknolojiye sahip LLM’lerle birleştirmeye çalışıyor.
Şirket, bu avatarları 2025’in ilk yarısında açık kaynaklı hale getirmeyi planlıyor. Nvidia bunu geliştiricilerin oluşturabileceği yeni bir kullanıcı arayüzü olarak görüyor ve kullanıcıların en sevdikleri yapay zeka yazılım ürünlerini takmalarına ve hatta bu avatarları yerel olarak çalıştırmalarına olanak tanıyor.
Microsoft’un Geri Çağırma özelliğine çok benzer (ki bu gizlilik endişeleri nedeniyle gecikti), R2X ekranınızın sürekli ekran görüntülerini alabilir ve bunları işlenmek üzere bir yapay zeka modeli üzerinden çalıştırabilir, ancak bu özellik varsayılan olarak kapalıdır. Açıldığında, bilgisayarınızda çalışan uygulamalar hakkında geri bildirim sunabilir ve örneğin karmaşık bir kodlama görevinde çalışmanıza yardımcı olabilir.
R2X hâlâ bir prototip ve Nvidia bile hala çözülmesi gereken bazı hatalar olduğunu kabul ediyor. TechCrunch ile yapılan demolarda Nvidia’nın avatarında esrarengiz bir vadi hissi vardı; yüzü bazen tuhaf konumlarda sıkışıp kalıyordu ve tonu bazen biraz agresif geliyordu. Ve genel olarak, ben çalışırken insansı bir avatarın bana bakmasını biraz tuhaf buluyorum.
R2X genel olarak yararlı talimatlar sunuyordu ve ekranda olanı doğru bir şekilde görüntüledi. Ancak bir noktada avatar bize yanlış talimatlar verdi ve daha sonra avatarın ekranı görüntülemesi durduruldu. Bu, temeldeki AI modeliyle (bu durumda GPT-4o) ilgili bir sorun olabilir, ancak örnek, bu erken teknolojinin sınırlamalarını göstermektedir.
Bir demoda, bir Nvidia ürün lideri, R2X’in ekranınızdaki uygulamaları nasıl görüntüleyebileceğini ve kullanıcılara bu konuda nasıl yardımcı olabileceğini gösterdi. Özellikle R2X, Adobe Photoshop’un üretken doldurma özelliğini kullanmamıza yardımcı oldu. Seçtiğimiz fotoğraf, Nvidia CEO’su Jensen Huang’ın iki restoran çalışanıyla birlikte bir Asya restoranında ayakta durmasıydı. Nvidia’nın avatarı halüsinasyon gördü ve Photoshop’ta üretken doldurma özelliğinin nerede bulunabileceği konusunda yanlış talimatlar verdi. Daha sonra ekranı görüntüleme yeteneğini kaybetti, ancak kullandığımız AI modelini xAI’nin Grok’una değiştirdikten sonra avatar, ekran görüntüleme yeteneklerini yeniden kazandı.
Başka bir demoda R2X, masaüstünden bir PDF alıp ardından bununla ilgili soruları yanıtlayabildi. Bu süreç, yerel erişim artırılmış nesil (RAG) özelliği tarafından destekleniyor ve bu özellik, bu AI avatarlarına bir belgeden bilgi çekme ve bunu temeldeki LLM’yi kullanarak işleme yeteneği veriyor.
Nvidia, bu avatarların görünüşünü güçlendirmek için video oyunu bölümündeki bazı yapay zeka modellerini kullanıyor. Nvidia, avatar oluşturmak için RTX sinir yüzleri algoritmasını kullanıyor. Yüz, dudak ve dil hareketini otomatikleştirmek için Nvidia, yeni bir model kullanıyor. Audio2Face™-3D. Bu model bazı noktalarda durmuş gibi görünüyordu ve avatarın yüzünü garip pozisyonlarda tutuyordu.
Şirket ayrıca bu R2X avatarlarının kişisel asistan olarak Microsoft Teams toplantılarına katılabileceğini söylüyor.
Bir Nvidia ürün lideri, şirketin bu AI avatarlarına aracılık yetenekleri de vermeye çalıştığını, böylece R2X’in bir gün masaüstünüzde eylemler gerçekleştirebileceğini söylüyor. Bu yetenekler daha çok uzak gibi görünüyor ve muhtemelen Microsoft ve Adobe gibi benzer ajansal sistemleri kendileri geliştirmeye çalışan yazılım üreticileriyle ortaklıklar gerektirecek.
Nvidia’nın bu ürünlerdeki sesleri nasıl ürettiği hemen belli değil. GPT-4o kullanırken R2X’in sesi, ChatGPT’nin önceden ayarlanmış seslerinden herhangi birinden benzersiz geliyor, oysa xAI’nin Grok sohbet robotunun henüz bir ses modu yok.

