Görme engelli veya az gören kişilerin vazgeçilmez Android özelliği olan TalkBack, multimodalite modeline sahip Gemini Nano sayesinde çok daha kullanışlı ve güçlü bir hale geliyor.

Bu konuda kapsamlı bir blog yazısı var Android Geliştiricileri BloguEkibin Android Erişilebilirlik Paketi’ndeki ekran okuyucu özelliğinin en son geliştirmeleri hakkında konuştuğu bir oturum.

– Android Geliştiriciler Blogu, Eylül 2024

TalkBack, geliştiriciler açıklayıcı alternatif metin eklemediğinde resim açıklamaları sağlayan bir özellik içerir. Daha önce, bu özellik Garcon adlı küçük bir makine öğrenimi modeline dayanıyordu ve bu model genellikle yer işaretleri veya ürünler gibi belirli ayrıntılardan yoksun, kısa ve genel yanıtlar üretiyordu. Çok modlu yeteneklere sahip Gemini Nano’nun tanıtımı, TalkBack’in erişilebilirlik özelliklerini geliştirmek için ideal bir fırsat sundu. Artık kullanıcılar uygun cihazlarda katılım sağladığında, TalkBack, cihaz çevrimdışı olduğunda veya dengesiz bir ağ bağlantısı yaşadığında bile Google Photos ve Chrome gibi uygulamalarda net ve ayrıntılı resim açıklamalarını otomatik olarak sunmak için Gemini Nano’nun gelişmiş çok modlu teknolojisinden yararlanıyor.

Google ekibi, Gemini Nano’nun görüntü açıklamalarını nasıl iyileştirdiğini gösteren bir örnek sunuyor. İlk olarak, Garcon’a gece vakti Sidney, Avustralya kıyı şeridinin bir panoraması sunuluyor ve şöyle okunabilir: “Okyanusun üzerinde dolunay”. Ancak, çok modlu Gemini Nano, “Yeni Güney Galler, Avustralya, Sidney’in kuzey kıyısından Sidney Opera Binası ve Sidney Limanı Köprüsü’nün panoramik görünümü” gibi bir açıklamayla daha zengin bir resim çizebilir. Kulağa çok daha hoş geliyor, değil mi?

TalkBack’in cihaz çevrimdışı olduğunda bile ayrıntılı resim açıklamalarını otomatik olarak oluşturması için Gemini Nano gibi cihaza entegre bir model kullanmak tek pratik çözümdü.

.

– Google’da ürün müdürü olan Lisie Lillianfeld

Gemini Nano’yu çoklu modalite ile uygularken, Android erişilebilirlik ekibi çıkarım ayrıntısı ve hız arasında seçim yapmak zorundaydı, bu karar kısmen görüntü çözünürlüğünden etkilenmişti. Gemini Nano şu anda 512 piksel veya 768 pikselde görüntüleri destekliyor.

512 piksel çözünürlük ilk belirteci 768 piksel seçeneğinden neredeyse iki saniye daha hızlı üretirken, ortaya çıkan açıklamalar daha az ayrıntılıdır. Ekip nihayetinde artan gecikme pahasına bile olsa daha uzun, daha ayrıntılı açıklamalar sağlamaya öncelik verdi. Bu gecikmenin kullanıcı deneyimi üzerindeki etkisini azaltmak için belirteçler doğrudan metinden sese sistemine aktarılır ve kullanıcıların tüm metin oluşturulmadan önce yanıtı duymaya başlamalarına olanak tanır.

AI hype trenine henüz tam olarak binmemiş olsam da, bunun gibi AI destekli özellikler şaşırtıcıdır – sadece potansiyeli düşünün! Ve sonra, bu “harika” ilerlememizi yavaşlatmak istemenize neden olan bunun gibi hikayeler var:



telefon-1