Apple araştırmacıları yapay zeka (AI) modelleri üzerine başka bir makale daha yayınladılar ve bu sefer odak noktası akıllı telefon kullanıcı arayüzlerini (UI) anlamak ve bunlar arasında gezinmek. Henüz hakemli olmayan araştırma makalesi, geleneksel bilgisayar görüşünün ötesine geçebilen ve karmaşık akıllı telefon ekranlarını anlayabilen, Ferret UI adlı büyük bir dil modelini (LLM) vurgulamaktadır. Bu, teknoloji devinin araştırma bölümü tarafından yapay zeka hakkında yayınlanan ilk makale değil. Zaten multimodal LLM’ler (MLLM’ler) ve cihaz içi AI modelleri hakkında bir makale yayınladı.

Araştırma makalesinin ön baskı versiyonu, bilimsel makalelerin açık erişimli çevrimiçi deposu olan arXiv’de yayınlandı. Makalenin başlığı “Ferret-UI: Multimodal LLM’lerle Temellendirilmiş Mobil Kullanıcı Arayüzü Anlayışı” olup MLLM’lerin kullanım senaryosunu genişletmeye odaklanmaktadır. Çok modlu yeteneklere sahip çoğu dil modelinin doğal görüntülerin ötesini anlayamadığını ve işlevselliğin “kısıtlı” olduğunu vurguluyor. Ayrıca akıllı telefonlardaki gibi karmaşık ve dinamik arayüzleri anlamak için yapay zeka modellerine duyulan ihtiyacı da belirtiyor.

Makaleye göre Ferret UI, “açık uçlu dil talimatlarını ustaca yorumlayıp bunlara göre hareket ederken, kullanıcı arayüzü ekranlarına özgü hassas yönlendirme ve temellendirme görevlerini yürütmek üzere tasarlandı.” Basit bir ifadeyle, görme dili modeli, yalnızca farklı bilgileri temsil eden birden fazla öğeye sahip bir akıllı telefon ekranını işlemekle kalmaz, aynı zamanda bir sorguyla istendiğinde kullanıcıya bunlar hakkında bilgi de verebilir.

gelincik kullanıcı arayüzü Gelincik kullanıcı arayüzü

Ferret UI ekrandaki bilgileri nasıl işler?
Fotoğraf Kredisi: Elma

Makalede paylaşılan bir görsele dayanarak model, widget’ları anlayıp sınıflandırabiliyor ve simgeleri tanıyabiliyor. Ayrıca “Başlatma simgesi nerede”, “Hatırlatıcılar uygulamasını nasıl açarım” gibi sorulara da yanıt verebiliyor. Bu, yapay zekanın yalnızca gördüğü ekranı açıklama yeteneğine sahip olmadığını, aynı zamanda bir istemi temel alarak iPhone’un farklı bölümlerine gidebildiğini de gösteriyor.

Ferret kullanıcı arayüzünü eğitmek için Apple araştırmacıları kendileri de çeşitli karmaşıklıklara sahip veriler oluşturdular. Bu, modelin temel görevleri öğrenmesine ve tek adımlı süreçleri anlamasına yardımcı oldu. “İleri düzey görevler için GPT-4 kullanıyoruz [40] ayrıntılı açıklama, konuşma algısı, konuşma etkileşimi ve işlev çıkarımı dahil olmak üzere veriler üretmek. Bu gelişmiş görevler, modeli görsel bileşenler hakkında daha ayrıntılı tartışmalara girmeye, belirli hedefleri göz önünde bulundurarak eylem planları formüle etmeye ve ekranın genel amacını yorumlamaya hazırlıyor,” diye açıkladı makale.

Makale ümit verici ve eğer hakem incelemesi aşamasını geçerse, Apple bu yeteneği iPhone’a basit metin veya sözlü komutlarla karmaşık kullanıcı arayüzü gezinme görevlerini gerçekleştirebilecek güçlü araçlar eklemek için kullanabilir. Bu yetenek Siri için ideal gibi görünüyor.


Bağlı kuruluş bağlantıları otomatik olarak oluşturulabilir; ayrıntılar için etik bildirimimize bakın.



genel-8