Google ve Samsung’un öncülük ettiği yapay zeka hızla mobil deneyimimizin bir parçası haline geliyor. Ancak Apple, ekosistemindeki yapay zeka konusunda da önemli ilerlemeler kaydediyor. Son zamanlarda Cupertino teknoloji devi, hem metni hem de görüntüleri işleyebilen çok modlu bir büyük dil modeli (MLLM) olan MM1 olarak bilinen bir projeyi tanıttı. Şimdi, mobil ekran arayüzlerinin nüanslarını kavramak için tasarlanan yeni bir MLLM’yi ortaya çıkaran yeni bir çalışma yayınlandı. Kağıt, Cornell Üniversitesi tarafından yayınlanan ve öne çıkanlar Apple’ın İçeriği“Ferret-UI: Multimodal LLM’lerle Temellendirilmiş Mobil Kullanıcı Arayüzü Anlayışı”nı tanıtıyor.

Satır aralarını okurken Ferret-UI’nin Siri’nin uygulamaların ve iOS arayüzünün görünümünü ve işlevselliğini daha iyi anlamasını sağlayabileceğini öne sürüyor. Çalışma, MLLM’lerdeki ilerlemeye rağmen birçok modelin mobil kullanıcı arayüzlerini (UI) anlama ve bunlarla etkileşim kurma konusunda zorluk yaşadığını vurguluyor. Çoğunlukla portre modunda kullanılan mobil ekranlar, yoğun simge ve metin düzenlemeleriyle benzersiz zorluklar sunar ve yapay zekanın yorumlamasını zorlaştırır.

Bu sorunu çözmek için Ferret-UI, görüntüleri istenen herhangi bir çözünürlüğe yükselterek ekran öğelerinin okunabilirliğini artıran bir büyütme özelliği sunar. Bu yetenek, yapay zekanın mobil arayüzlerle etkileşiminde ezber bozan bir özelliktir.

Makaleye göre Ferret-UI, mobil ekranlardaki widget’ları, simgeleri ve metinleri tanıma ve kategorilere ayırma konusunda öne çıkıyor. İşaretleme, kutulama veya karalama gibi çeşitli giriş yöntemlerini destekler. Model, bu görevleri yerine getirerek görsel ve mekansal verileri iyi bir şekilde kavrar ve bu da farklı kullanıcı arayüzü öğelerini hassas bir şekilde ayırmasına yardımcı olur.

Ferret-UI’yi diğerlerinden ayıran şey, doğrudan ham ekran piksel verileriyle çalışabilmesi ve harici algılama araçlarına veya ekran görüntüleme dosyalarına olan ihtiyacı ortadan kaldırabilmesidir. Bu yaklaşım, tek ekran etkileşimlerini önemli ölçüde geliştirir ve cihaz erişilebilirliğini iyileştirmek gibi yeni uygulamalara yönelik olasılıkların önünü açar.

Araştırma makalesi, Ferret-UI’nin tanımlama, konum ve muhakeme ile ilgili görevleri yerine getirmedeki yeterliliğini öne çıkarıyor. Bu atılım, Ferret-UI gibi gelişmiş yapay zeka modellerinin, daha sezgisel ve verimli kullanıcı deneyimleri sunarak kullanıcı arayüzü etkileşiminde devrim yaratabileceğini gösteriyor.

Ferret-UI Siri’ye entegre olursa ne olur?

Ferret-UI’nin Siri’ye veya diğer Apple hizmetlerine entegre edilip edilmeyeceği doğrulanmasa da potansiyel faydaları ilgi çekici. Ferret-UI, mobil kullanıcı arayüzlerinin anlaşılmasını çok modlu bir yaklaşımla geliştirerek, Siri gibi sesli asistanları çeşitli şekillerde önemli ölçüde geliştirebilir.

Bu, Siri’nin, kullanıcıların uygulamalar içinde ne yapmak istediğini anlamada daha iyi hale geleceği, hatta belki daha karmaşık görevlerin üstesinden gelebileceği anlamına gelebilir. Ayrıca, ekrandakileri dikkate alarak Siri’nin sorguların bağlamını daha iyi kavramasına yardımcı olabilir. Sonuçta bu, Siri’nin kullanımını daha sorunsuz bir deneyim haline getirebilir, uygulamalar arasında gezinmek veya görsel olarak neler olduğunu anlamak gibi eylemleri gerçekleştirmesine olanak tanıyabilir.



telefon-1