Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Meta’nın yapay zeka dudağı okuyabilir mi?
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Meta’nın yapay zeka dudağı okuyabilir mi?

Genel

Meta’nın yapay zeka dudağı okuyabilir mi?

teknomers
Son güncelleme: 12 Ocak 2022 17:58
teknomers
Paylaş
Paylaş


Contents
  • Kendini denetleme yolu
  • birleştirilmiş yaklaşım
  • Dudak Okuma Cümleleri 3 Dil
  • Peki ya ortam gürültüsü?

İnsanların konuşmayı yalnızca kulaklarıyla dinleyerek değil, konuşmacılarda gözlemledikleri dudak hareketlerinden ipuçlarını alarak da anladıkları yaygın olarak bilinen bir gerçektir. Benzer şekilde, görsel gözlem ve ses kombinasyonu, bir bilgisayarın insan konuşmasını daha iyi analiz etmesine yardımcı olabilir. Bilgisayar programları, bir bakıma dudak okuyabilir, ancak bu, yapılması zahmetli bir görevdir.

Facebook, Instagram ve WhatsApp’ın ana şirketi Meta’nın son çalışması, bir gün bilgisayarların dudak okumasını sağlamak için daha etkili bir yol öneriyor.

Geçen Cuma, Meta’daki yapay zeka araştırmacıları, kaydedilen videolarda konuşmacıların dudaklarının hareketlerinden kelimeleri analiz edebilen bir yazılım tasarlamak için gereken çabayı büyük ölçüde azaltmayı başardıkları bir rapor yayınladılar. Bu çalışma aynı zamanda gürültülü ortamlarda konuşma tanımayı önemli ölçüde iyileştirmek için dudak okuma teknolojisinin kullanılmasını mümkün kılmıştır.

Yazarlar, programın “en iyi işitsel ve görsel konuşma tanıma sistemlerinden (konuşmacının ne dediğini anlamak için hem ses hem de görüntüleri kullanan) %75 daha doğru olduğunu” söylüyor.

Kendini denetleme yolu

Tabii ki, burada metaverse’yi düşünüyoruz. Program sadece anında çeviri için kullanılabilir, aynı zamanda bir gün, “gerçek bir varlık hissi – bu hissi” sağlamak için sanal gerçeklik avatarlarında gerçekçi dudak hareketleri oluşturmaya yardımcı olabilir. dünyanın öbür ucunda olsalar bile”.

Bu çalışma iki cephede ilerlemeyi temsil etmektedir. İlki, metin transkripsiyonları gibi belirli ipuçlarından kaçınan ve programın kendiliğinden verilerin yapısını tahmin etmesini sağlayan kendi kendine denetimli öğrenmedir. Diğer gelişme ekseni, farklı türden verileri karşılıklı olarak güçlendirecek şekilde birleştiren çok modlu sinir ağlarıdır.

AV-HuBERT olarak adlandırılan sonuç, görsel-işitsel anlamına gelen “AV”, “gizli birim” anlamına gelen “Hu”, dudak hareketlerinden kelimeleri algılamak için işitsel ve görsel sinyalleri birleştirir. Facebook’tan baş yazar Bowen Shi ve meslektaşları Wei-Ning Hsu, Kushal Lakhotia ve Abdelrahman Mohamed çalışmalarını açıkladılar. makale İngilizce “Maskeli Multimodal Küme Tahmini ile Görsel-İşitsel Konuşma Temsilini Öğrenmek” başlıklı. Yazarlar da yazdı bir blog yazısı, muhtemelen daha sindirilebilir.

Araştırmacıların açıkladığı gibi, önceki çalışma aynı zamanda çok modluydu ve görsel verileri, video görüntülerini, ses verileriyle, dalga biçimi parçacıklarıyla birleştirerek, eşleşmelerini tahmin etmek için bir sinir ağını eğitiyordu. Ancak bu programlar, konuşmacıların videolarını daha sonra etiket görevi görecek metin cümlelerine dönüştürmek gibi önceden hazırlanmış ek ipuçlarına güvenme eğilimindeydi. Yeni işler, dış bir yapı olmadan modelleri kendiliğinden bir araya getirerek kendi kendini denetleme yolunu alıyor.

Yazarlar blog yazılarında “Bu, etiketlenmemiş verilerden – henüz yazıya geçirilmemiş ham videolardan – konuşma ve dudak hareketlerini ortaklaşa modelleyen ilk sistemdir” diye yazıyor.

birleştirilmiş yaklaşım

İcat ettikleri AV-HuBERT programı, yalnızca sesli bir programa dayanmaktadır. denilen HuBERT ve geçen yıl Wei-NingHsu ve meslektaşları tarafından sunuldu. Adından da anlaşılacağı gibi HuBERT, 2018’de Google’da geliştirilen Transformer çift yönlü sinir ağı yaklaşımını kullanıyor.

Bir ses kaydının parçalarını “maskeleyerek”, yani bir ses dalga biçiminin bölümlerini dışarıda bırakarak, HuBERT sinir ağı, eğitim aşamasında, ses parçalarını yeniden yapılandırmak zorunda kaldı. Şimdi, AV-HuBERT’de araştırmacılar, konuşan insanların videolarından alınan görüntülerle ses parçalarını “birleştirmek” istiyorlar. Sinir ağının eğitim aşaması esas olarak iki aşamada gerçekleşir. İlk olarak, orijinal HuBERT durumunda olduğu gibi, sesi maskelemek için dikkat yaklaşımını kullanırlar ve ardından ses dalga biçimlerini kümeler halinde gruplandırırlar, yani niteliklerinde belirli bir şekilde birbirine yakın olan örnek grupları.

Bu gruplamalar daha sonra sinir ağının ikinci aşaması için bir hedef haline gelir. AV-HuBERT’in çok modlu kısmı, hoparlörlerin dudaklarının ve ses dalga biçiminin görüntülerini aynı anda maskeler ve ardından bunları ilk dalgada oluşturulan kümelerle eşleştirmeye çalışır. Bu şekilde, program hangi dudak konfigürasyonlarının hangi ses dalga biçimlerine karşılık geldiğini hesaplar ve böylece ağız hareketi ile ses çıkışı arasındaki korelasyonu “öğrenir”.

Aslında, yapıyı açık ipuçları olmadan belirleyen, kendi kendini denetleyen bir yaklaşımdır. Birleştirme, görüntülere gösterilen dikkatin ve ses dalga biçimlerine gösterilen dikkatin, birinin veya diğerinin kendi başına üretebileceğinden daha büyük kümeler oluşturmak için birbirini güçlendirmesi anlamına gelir. Bu kümeler, dudak okuma ve konuşma tanıma gibi sonraki görevlerin “hedefi” haline gelir.

Yazarların açıkladığı gibi, “AV-HuBERT, dudak hareketlerinin akışından ve ses akışlarından gizli temsillerine kadar maskesiz bölgeler için aynı anda dilsel ve fonetik bilgileri yakalar, ardından maskeli tahmin görevini çözmek için uzun menzilli zamansal ilişkilerini kodlar”.

Dudak Okuma Cümleleri 3 Dil

AV-HuBERT bu şekilde kendi kendine eğitildikten sonra, yazarlar gerçek etiketli videoyu, saatlerce videoyu, makineye kelimelerin kelimenin neresinde olduğunu söyleyen resmi transkripsiyonlarla sunarak ince ayar yapar. video.

AV-HuBERT programını test etmek ve eğitmek için kullanılan birincil veri seti, 2018’de Triantafyllos Afouras ve Oxford’daki meslektaşları tarafından geliştirilen ve “bugün halka açık en büyük cümle düzeyinde dudak okuma veri seti” olan LRS3’tür. YouTube’dan İngilizce olarak TED ve TEDx konuşmalarından alınan 400 saatten fazla videodan oluşur. “

Araştırmacılar, AV-HuBERT’in kendi kendini denetleyen eğitimi sayesinde, konuşmacı videolarından kelimeleri önceki denemelerden daha etkili bir şekilde tahmin edebildiğini yazıyor. Ancak, ham puandan daha önemli olan, programı eğitmek için gereken veri miktarındaki ciddi azalmadır. “AV-HuBERT, önceki en iyi yaklaşımda kullanılan 31.000 saatlik etiketli veriden iki büyüklük sırası daha az olan 433 saatlik metin transkripsiyonunu kullanarak en son teknolojiye ulaşıyor” diye yazıyorlar.

Çok daha az veri gereksinimi ile diğerlerine göre çok daha az veriye sahip diller üzerinde dudak okuma görevleri yapmak mümkündür, yani düşük kaynaklı diller. (Örneğin İngilizce, Fransızca ve Almanca dışındaki dilleri düşünün). Yazarlar, “gelecekteki çalışmalarda, AV-HuBERT’in düşük kaynaklı dillerde çok dilli dudak okumaya uygulanabileceğini” ve aynı “yaklaşımın konuşma geliştirme ve oluşturma gibi konuşmanın görsel temsilinin diğer uygulamalarına genişletilebileceğini” belirtiyorlar. ”.

Peki ya ortam gürültüsü?

Araştırmacılar sonuçlarına eklediler geçen hafta yayınlanan ikinci bir makale otomatik konuşma tanıma için AV-HuBERT kullanımını açıklayan. Burada odak, gürültülü bir ortamda konuşmanın ayrıştırılmasının nasıl iyileştirileceğidir.

Ev ortamında kullanılan konuşma tanıma doğal olarak müzik, yemek pişirme veya elektrikli süpürge sesleriyle karşılaşırken, toplantı senaryolarında konuşlandırılan konuşma tanıma konuşma gürültüsüne eğilimlidir. Soruları, AV-HuBERT’in bu ortam gürültüsünün üstesinden gelip gelemeyeceğidir.

Araştırmacılar, eğitim sırasında ses kliplerini AV-HuBERT’in örnek video görüntüleri ve ses dalga biçimleriyle karıştırıyor. Yazdıkları sonuç, programın gürültüyü aşmada iyi olmasıdır. Öyle ki AV-HuBERT, önceki ses tanıma sistemlerine göre kelime hata oranını yani hatalı kelime oranını %50 oranında düşürmeyi mümkün kılıyor. “Gelecekteki çalışmalarımız, gerçek, sınırlı kaynaklar ve çok dilli bağlamlarda görsel-işitsel konuşma tanıma uygulamasını içeriyor” diye yazıyorlar.

Yapay zekanın dudak okumada artık insanlardan daha iyi olduğu fikri, son yıllarda AI ile ilgili önceki çalışmaların konusu olmuştur. AV-HuBERT’in en iyi performansındaki kelime hata oranı aslında %26,9 ile profesyonel insan dudak okuyucularından çok daha iyidir. Görünüşe göre dudak okuyabilen insanlar için en iyi sonuç sadece %40 (onda dördünde yanılıyorlar). Açıkçası, konferansları olaydan sonra yazıya dökmek gibi şeyler için bu, yazılıma bir destek verebilir.

Ancak pratikte büyük bir dezavantaj var. Aslında dudak okumasını “simüle ediyor”. AV-HuBERT sonuçları, gerçek bir canlı konuşma değil, kayıtlı video üzerinde yapılan bir testin sonucudur.

Kaynak: ZDNet.com



genel-15

Rayo – Real Madrid canlı yayını: Ücretsiz izleyebilir misiniz?
Destiny 2 Horror Story God Roll – PvE ve PvP İçin En İyi Avantajlar
İtalya’da start-up’lara yapılan yatırımlar %63 azaldı
Turtle Beach, uygunsuz davranış iddiaları üzerine “Dr Disrespect” ile ortaklığını sonlandırdı
Dünyanın En Büyük Bitkisi, Washington Eyaletinden Daha Büyük, Kendini Klonlayan Bir Demet Sualtı Deniz Otudur
ETİKETLENDİ:dudağıMetanınokuyabilirYapayZeka
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Marvel Disney+ Halloween Şovu, Çizgi Romanların Vampirlerini Geceye Çeviriyor
Sonraki Makale Micron’un yeni bütçe SSD’si, nihai HDD katili olabilir
Yorum yapılmamış

Bir yanıt yazın Yanıtı iptal et

Yorum yapabilmek için oturum açmalısınız.

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Valve’ın Yıldız Yönetmeni, Para İçin Devam Oyunu Yapmamayı Takdir Ediyor
Oyun
Helion, Microsoft için Güç Santrali Kurmak Üzere 465 Milyon Dolar Yatırım Aldı
Genel
Kevin O’Leary Utah’daki Dev Veri Merkezini Küçültmeye Karar Verdi
Liste
Kritik DentaQuest Veri İhlali: 2.6 Milyon Hesap Bilgileri Tehlikede
Siber Güvenlik
DOGE İfşası: Elon Musk’a Açılan Davanın Şok Edici Detayları
Genel
Qualcomm Sohbeti: Snapdragon C, RTX Spark ve Yapay Zeka Geleceği
Donanım
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?