Bir araştırmacı, video konferans teknolojisini dünyanın en uzak yerlerinden birine getirdi: yüzeyin 4.000 metre altında, deniz tabanında bulunan HMS Titanic’in enkazı.

“Sanki artık uçurumdan video konferans yapabiliyoruz” Carnegie Mellon Üniversitesi ve Karlsruhe Teknoloji Enstitüsü’nde araştırmacı olan Alex Waibel açıklıyor.

İşte bu, riski anlıyor musunuz?

Radyo sinyalleri su altında iyi çalışmıyor

Alex Waibel, metinden konuşmaya teknolojisinde uzmandır. Şu anda, sualtı gemilerinde Titanik’in enkazını – veya diğer derin deniz enkazlarını – keşfeden araştırmacıların yüzeyle iletişim kurmasının tek yolu, sonar aracılığıyla metin mesajları göndermektir.

Çünkü radyo sinyalleri su altında iyi çalışmaz. Bu durum, İkinci Dünya Savaşı’ndan bu yana bilim adamlarının çözüm bulduğu bir iletişim sorunu oluşturmaktadır.

Yakın zamanda yapılan bir keşif gezisi sırasındaOceanGate Seferleri, Alex Waibel dalışını anlattı ve söylediklerini aktarılabilir mesajlara dönüştürmek için ses tanıma teknolojisini kullandı. Yüzeyde, araştırmacı ve ekibi tarafından geliştirilen teknoloji, daha sonra yapay zeka kullanarak ham metin mesajlarını videoya yeniden sentezledi.

Tüketici kullanım durumuna doğru

Sonuç, Alex Waibel’in sesini kullanan neredeyse gerçek zamanlı bir video. Dudakları kelimelerle senkronize hareket ediyor. Bu çabalar, aşırı ortamlarda doğal iletişimi kolaylaştırmayı amaçlar, ancak genel halk için de potansiyele sahip olabilir. Zoom’da araştırma görevlisi olan araştırmacı, şirkete yapay zeka araştırması ve dil teknolojisi geliştirme konusunda tavsiyelerde bulunuyor.

“Doğal sesli iletişimi yorumlayarak ve yeniden oluşturarak, su, operasyonel stres, konuşma diyalogu ve zayıf akustik koşulların getirdiği zorluklara rağmen, bilim insanlarının ve pilotların bu tür görevlerdeki iş yükünü doğal bir şekilde azaltmaya çalışıyoruz, Alex Waibel, CMU’dan Aaron Aupperlee’ye söyledi.

Daha genel olarak ses tanıma pazarı, bir dizi kilit sektörde hızlandırılmış bir geliştirme ve benimseme aşamasına giriyor. Alex Waibel’in çalışması, sentezlenmiş de olsa tam videoyu son kullanıcıya teslim etmek için düşük bant genişliğine sahip yayınları (bu durumda sonar tarafından) kullanan bir yayın mekanizması ile bu eğilim üzerine inşa edilmiştir.

Teknoloji, yapay zeka destekli metin-konuşma teknolojisindeki gelişmelere dayanarak, hoparlör gibi ses çıkaran sentezlenmiş bir ses kullanır. Bu teknolojinin bir başka potansiyel uygulaması, son kullanıcının bir videoyu konuşmacının bilmediği anlaşılır bir dilde gördüğü bir dilden diğerine hızlı çeviridir.

Kaynak : ZDNet.com



genel-15