Var olan her masa oyununda yapay zekanın insanlığın derisini (mecazi olarak şimdilik) bronzlaştırması yeterli değilmiş gibi, Google yapay zekasının masa tenisinde de hepimizi yok etmeye çalışan bir tane var. Şimdilik bunun “işbirlikçi” olduğunu vurguluyorlar, ancak bu şeyler iyileşirse, kısa sürede profesyoneller kazanacak.
Proje, i-Sim2Real olarak adlandırılan, sadece masa tenisi ile ilgili değil, daha çok hızlı tempolu ve nispeten öngörülemeyen insan davranışlarıyla ve çevresinde çalışabilen robotik bir sistem inşa etmekle ilgili. Masa tenisi, AKA masa tenisi, oldukça sıkı bir şekilde sınırlandırılma (basketbol veya kriket oynamanın aksine) ve karmaşıklık ve basitlik dengesi avantajına sahiptir.
“Sim2Real”, bir makine öğrenimi modeline sanal bir ortamda veya simülasyonda ne yapılacağının öğretildiği ve ardından bu bilgiyi gerçek dünyada uyguladığı bir AI oluşturma sürecini tanımlamanın bir yoludur. Çalışan bir modele ulaşmanın yıllarca deneme yanılma gerektirebileceği durumlarda gereklidir – bunu bir sim’de yapmak, yıllarca gerçek zamanlı eğitimin birkaç dakika veya saat içinde gerçekleşmesini sağlar.
Ancak sim’de bir şeyler yapmak her zaman mümkün değildir; örneğin bir robotun bir insanla etkileşime girmesi gerekiyorsa ne olur? Bunu simüle etmek o kadar kolay değil, bu yüzden başlamak için gerçek dünya verilerine ihtiyacınız var. Sonunda bir tavuk ve yumurta problemi ile karşılaşıyorsunuz: İnsan verilerine sahip değilsiniz, çünkü ilk etapta insanın etkileşime gireceği ve bu verileri üreteceği robotu yapmak için ona ihtiyacınız olacak.
Google araştırmacıları bu tuzaktan kurtuldu basit başlayarak ve bir geri bildirim döngüsü yaparak:
[i-Sim2Real] yaklaşık bir başlangıç noktası olarak basit bir insan davranışı modelini kullanır ve simülasyonda eğitim ile gerçek dünyada konuşlandırma arasında geçiş yapar. Her yinelemede hem insan davranışı modeli hem de politika rafine edilir.
İnsan davranışına kötü bir yaklaşımla başlamak sorun değil, çünkü robot da daha yeni öğrenmeye başlıyor. Her oyunda daha fazla gerçek insan verisi toplanır, bu da doğruluğu artırır ve yapay zekanın daha fazlasını öğrenmesini sağlar.
Yaklaşım, takımın masa tenisi robotunun 340 kişilik bir ralli gerçekleştirebilmesi için yeterince başarılıydı. Buna bir bak:
Ayrıca, tam olarak matematiksel hassasiyetle verilmeyen, ancak yeterince iyi bir şekilde bir strateji uygulamaya başlayabilir, topu farklı bölgelere geri gönderebilir.
Takım ayrıca daha hedef odaklı bir davranış için farklı bir yaklaşım denedi, örneğin çeşitli pozisyonlardan çok özel bir noktaya topu döndürmek gibi. Yine, bu nihai ping pong makinesini yaratmakla ilgili değil (yine de bu olası bir sonuçtur), ancak insanları aynı eylemi binlerce kez tekrar ettirmeden insan etkileşimleriyle ve insanlar için verimli bir şekilde eğitim almanın yollarını bulmakla ilgilidir.
Aşağıdaki özet videoda Google ekibinin uyguladığı teknikler hakkında daha fazla bilgi edinebilirsiniz: