İnsanların konuşmayı yalnızca kulaklarıyla dinleyerek değil, konuşmacılarda gözlemledikleri dudak hareketlerinden ipuçlarını alarak da anladıkları yaygın olarak bilinen bir gerçektir. Benzer şekilde, görsel gözlem ve ses kombinasyonu, bir bilgisayarın insan konuşmasını daha iyi analiz etmesine yardımcı olabilir. Bilgisayar programları, bir bakıma dudak okuyabilir, ancak bu, yapılması zahmetli bir görevdir.

Facebook, Instagram ve WhatsApp’ın ana şirketi Meta’nın son çalışması, bir gün bilgisayarların dudak okumasını sağlamak için daha etkili bir yol öneriyor.

Geçen Cuma, Meta’daki yapay zeka araştırmacıları, kaydedilen videolarda konuşmacıların dudaklarının hareketlerinden kelimeleri analiz edebilen bir yazılım tasarlamak için gereken çabayı büyük ölçüde azaltmayı başardıkları bir rapor yayınladılar. Bu çalışma aynı zamanda gürültülü ortamlarda konuşma tanımayı önemli ölçüde iyileştirmek için dudak okuma teknolojisinin kullanılmasını mümkün kılmıştır.

Yazarlar, programın “en iyi işitsel ve görsel konuşma tanıma sistemlerinden (konuşmacının ne dediğini anlamak için hem ses hem de görüntüleri kullanan) %75 daha doğru olduğunu” söylüyor.

Kendini denetleme yolu

Tabii ki, burada metaverse’yi düşünüyoruz. Program sadece anında çeviri için kullanılabilir, aynı zamanda bir gün, “gerçek bir varlık hissi – bu hissi” sağlamak için sanal gerçeklik avatarlarında gerçekçi dudak hareketleri oluşturmaya yardımcı olabilir. dünyanın öbür ucunda olsalar bile”.

Bu çalışma iki cephede ilerlemeyi temsil etmektedir. İlki, metin transkripsiyonları gibi belirli ipuçlarından kaçınan ve programın kendiliğinden verilerin yapısını tahmin etmesini sağlayan kendi kendine denetimli öğrenmedir. Diğer gelişme ekseni, farklı türden verileri karşılıklı olarak güçlendirecek şekilde birleştiren çok modlu sinir ağlarıdır.

AV-HuBERT olarak adlandırılan sonuç, görsel-işitsel anlamına gelen “AV”, “gizli birim” anlamına gelen “Hu”, dudak hareketlerinden kelimeleri algılamak için işitsel ve görsel sinyalleri birleştirir. Facebook’tan baş yazar Bowen Shi ve meslektaşları Wei-Ning Hsu, Kushal Lakhotia ve Abdelrahman Mohamed çalışmalarını açıkladılar. makale İngilizce “Maskeli Multimodal Küme Tahmini ile Görsel-İşitsel Konuşma Temsilini Öğrenmek” başlıklı. Yazarlar da yazdı bir blog yazısı, muhtemelen daha sindirilebilir.

Araştırmacıların açıkladığı gibi, önceki çalışma aynı zamanda çok modluydu ve görsel verileri, video görüntülerini, ses verileriyle, dalga biçimi parçacıklarıyla birleştirerek, eşleşmelerini tahmin etmek için bir sinir ağını eğitiyordu. Ancak bu programlar, konuşmacıların videolarını daha sonra etiket görevi görecek metin cümlelerine dönüştürmek gibi önceden hazırlanmış ek ipuçlarına güvenme eğilimindeydi. Yeni işler, dış bir yapı olmadan modelleri kendiliğinden bir araya getirerek kendi kendini denetleme yolunu alıyor.

Yazarlar blog yazılarında “Bu, etiketlenmemiş verilerden – henüz yazıya geçirilmemiş ham videolardan – konuşma ve dudak hareketlerini ortaklaşa modelleyen ilk sistemdir” diye yazıyor.

birleştirilmiş yaklaşım

İcat ettikleri AV-HuBERT programı, yalnızca sesli bir programa dayanmaktadır. denilen HuBERT ve geçen yıl Wei-NingHsu ve meslektaşları tarafından sunuldu. Adından da anlaşılacağı gibi HuBERT, 2018’de Google’da geliştirilen Transformer çift yönlü sinir ağı yaklaşımını kullanıyor.

Bir ses kaydının parçalarını “maskeleyerek”, yani bir ses dalga biçiminin bölümlerini dışarıda bırakarak, HuBERT sinir ağı, eğitim aşamasında, ses parçalarını yeniden yapılandırmak zorunda kaldı. Şimdi, AV-HuBERT’de araştırmacılar, konuşan insanların videolarından alınan görüntülerle ses parçalarını “birleştirmek” istiyorlar. Sinir ağının eğitim aşaması esas olarak iki aşamada gerçekleşir. İlk olarak, orijinal HuBERT durumunda olduğu gibi, sesi maskelemek için dikkat yaklaşımını kullanırlar ve ardından ses dalga biçimlerini kümeler halinde gruplandırırlar, yani niteliklerinde belirli bir şekilde birbirine yakın olan örnek grupları.

Bu gruplamalar daha sonra sinir ağının ikinci aşaması için bir hedef haline gelir. AV-HuBERT’in çok modlu kısmı, hoparlörlerin dudaklarının ve ses dalga biçiminin görüntülerini aynı anda maskeler ve ardından bunları ilk dalgada oluşturulan kümelerle eşleştirmeye çalışır. Bu şekilde, program hangi dudak konfigürasyonlarının hangi ses dalga biçimlerine karşılık geldiğini hesaplar ve böylece ağız hareketi ile ses çıkışı arasındaki korelasyonu “öğrenir”.

Aslında, yapıyı açık ipuçları olmadan belirleyen, kendi kendini denetleyen bir yaklaşımdır. Birleştirme, görüntülere gösterilen dikkatin ve ses dalga biçimlerine gösterilen dikkatin, birinin veya diğerinin kendi başına üretebileceğinden daha büyük kümeler oluşturmak için birbirini güçlendirmesi anlamına gelir. Bu kümeler, dudak okuma ve konuşma tanıma gibi sonraki görevlerin “hedefi” haline gelir.

Yazarların açıkladığı gibi, “AV-HuBERT, dudak hareketlerinin akışından ve ses akışlarından gizli temsillerine kadar maskesiz bölgeler için aynı anda dilsel ve fonetik bilgileri yakalar, ardından maskeli tahmin görevini çözmek için uzun menzilli zamansal ilişkilerini kodlar”.

Dudak Okuma Cümleleri 3 Dil

AV-HuBERT bu şekilde kendi kendine eğitildikten sonra, yazarlar gerçek etiketli videoyu, saatlerce videoyu, makineye kelimelerin kelimenin neresinde olduğunu söyleyen resmi transkripsiyonlarla sunarak ince ayar yapar. video.

AV-HuBERT programını test etmek ve eğitmek için kullanılan birincil veri seti, 2018’de Triantafyllos Afouras ve Oxford’daki meslektaşları tarafından geliştirilen ve “bugün halka açık en büyük cümle düzeyinde dudak okuma veri seti” olan LRS3’tür. YouTube’dan İngilizce olarak TED ve TEDx konuşmalarından alınan 400 saatten fazla videodan oluşur. “

Araştırmacılar, AV-HuBERT’in kendi kendini denetleyen eğitimi sayesinde, konuşmacı videolarından kelimeleri önceki denemelerden daha etkili bir şekilde tahmin edebildiğini yazıyor. Ancak, ham puandan daha önemli olan, programı eğitmek için gereken veri miktarındaki ciddi azalmadır. “AV-HuBERT, önceki en iyi yaklaşımda kullanılan 31.000 saatlik etiketli veriden iki büyüklük sırası daha az olan 433 saatlik metin transkripsiyonunu kullanarak en son teknolojiye ulaşıyor” diye yazıyorlar.

Çok daha az veri gereksinimi ile diğerlerine göre çok daha az veriye sahip diller üzerinde dudak okuma görevleri yapmak mümkündür, yani düşük kaynaklı diller. (Örneğin İngilizce, Fransızca ve Almanca dışındaki dilleri düşünün). Yazarlar, “gelecekteki çalışmalarda, AV-HuBERT’in düşük kaynaklı dillerde çok dilli dudak okumaya uygulanabileceğini” ve aynı “yaklaşımın konuşma geliştirme ve oluşturma gibi konuşmanın görsel temsilinin diğer uygulamalarına genişletilebileceğini” belirtiyorlar. ”.

Peki ya ortam gürültüsü?

Araştırmacılar sonuçlarına eklediler geçen hafta yayınlanan ikinci bir makale otomatik konuşma tanıma için AV-HuBERT kullanımını açıklayan. Burada odak, gürültülü bir ortamda konuşmanın ayrıştırılmasının nasıl iyileştirileceğidir.

Ev ortamında kullanılan konuşma tanıma doğal olarak müzik, yemek pişirme veya elektrikli süpürge sesleriyle karşılaşırken, toplantı senaryolarında konuşlandırılan konuşma tanıma konuşma gürültüsüne eğilimlidir. Soruları, AV-HuBERT’in bu ortam gürültüsünün üstesinden gelip gelemeyeceğidir.

Araştırmacılar, eğitim sırasında ses kliplerini AV-HuBERT’in örnek video görüntüleri ve ses dalga biçimleriyle karıştırıyor. Yazdıkları sonuç, programın gürültüyü aşmada iyi olmasıdır. Öyle ki AV-HuBERT, önceki ses tanıma sistemlerine göre kelime hata oranını yani hatalı kelime oranını %50 oranında düşürmeyi mümkün kılıyor. “Gelecekteki çalışmalarımız, gerçek, sınırlı kaynaklar ve çok dilli bağlamlarda görsel-işitsel konuşma tanıma uygulamasını içeriyor” diye yazıyorlar.

Yapay zekanın dudak okumada artık insanlardan daha iyi olduğu fikri, son yıllarda AI ile ilgili önceki çalışmaların konusu olmuştur. AV-HuBERT’in en iyi performansındaki kelime hata oranı aslında %26,9 ile profesyonel insan dudak okuyucularından çok daha iyidir. Görünüşe göre dudak okuyabilen insanlar için en iyi sonuç sadece %40 (onda dördünde yanılıyorlar). Açıkçası, konferansları olaydan sonra yazıya dökmek gibi şeyler için bu, yazılıma bir destek verebilir.

Ancak pratikte büyük bir dezavantaj var. Aslında dudak okumasını “simüle ediyor”. AV-HuBERT sonuçları, gerçek bir canlı konuşma değil, kayıtlı video üzerinde yapılan bir testin sonucudur.

Kaynak: ZDNet.com



genel-15

Bir yanıt yazın