Facebook, Instagram ve WhatsApp’ın sahibi Meta, bu yılın başlarında tanıtılan ve metin, görsel ve ses verilerini içeren görevleri herkes için aynı temel yaklaşımla gerçekleştiren, bir tür genelci gibi davranan sinir ağının geliştirilmiş bir sürümü olan Data2vec 2.0’ı tanıttı. üç.

İkinci seferde, Meta bilim adamları programı daha hızlı ve bazı durumlarda makine öğrenimi görevlerinin kıyaslama testlerinde daha doğru hale getirdi.

Orijinal Data2vec’in yazarlarından dördü Alexei Baevski, Arun Babu, Wei-Ning Hsu ve Michael Auli, “Data2vec 2.0, kendi kendine denetimli öğrenmenin eğitim hızının aşağı akış görev doğruluğunda kayıp olmadan önemli ölçüde iyileştirilebileceğini gösteriyor” diye yazıyor. kağıt, bu yeni çalışmada, éVizyon, Konuşma ve Dil için Bağlamsallaştırılmış Hedef Temsilleriyle Verimli Kendi Kendine Denetimli Öğrenmeé, arXiv’de yayınlandı.

Öğrenme hızının hızlandırılması

Bu ikinci Data2vec, eğitim süresini azaltmayı başardı. Bir sinir ağının eğitimi genellikle “dönemler”, yani sinir ağının eğitim örneklerini alma sayısı cinsinden ölçülür. Ayrıca duvar saati ile de ölçülebilir, yani baştan sona sayılan saat, dakika ve gün sayısı.

“Deneyler, Data2vec 2.0’ın öğrenme hızını 2 ile 16 arasında çarparak mevcut birçok algoritmayla aynı doğruluğu elde edebildiğini gösteriyor” diye yazıyorlar.

Data2vec adı, bir dil “entegrasyon” programının adına yapılan bir kelime oyunudur. 2013’te Google’da geliştirildi Word2vec denir. Bu program, kelimelerin nasıl bir araya geleceğini tahmin etti, bu nedenle Word2vec, bu durumda metin olmak üzere belirli bir veri türü için tasarlanmış bir sinir ağının temsilcisidir.

Ancak Data2vec söz konusu olduğunda, Alexei Baevski ve meslektaşları, Ashish Vaswani ve meslektaşları tarafından geliştirilen Transformer adlı bir sinir ağını kullanıyor. 2017’de Google’dave birden çok veri türü için kullanılabilecek şekilde genişletin. Sinir ağının aynı yapısı, herhangi birinin özelliklerini karşılamak için değiştirilmeden üç tür veriyi (görüntü, konuşma ve metin) eğitmek için kullanılabilir, bu da onu genel amaçlı bir program haline getirir.

Kendi kendine denetimli öğrenme yöntemi

Alexei Baevski ve meslektaşları, Transformer’ı “kendi kendine denetimli” öğrenme olarak adlandırılan şeye genişletiyor. Kendi kendini denetleyen bir çerçevede, bir sinir ağı, sonuçları birbiriyle karşılaştırılan birkaç adımdan geçerek eğitilir.

İlk olarak, ağ, girdi verilerinin bir temsilini oluşturma adı verilen bir veri örneğini sıkıştırır. Ardından, ağın ikinci bir versiyonunda, bu girdi verisi öğelerinin bazıları açıklanmaz, “maskelenir”. Ağın ilk sürümünün oluşturduğu temsili yeniden yapılandırması gerekir; bu da ikinci ağı, temel olarak boşlukları doldurarak verilerin nasıl birbirine uyduğuna dair daha iyi bir model oluşturmaya zorlar.

İki dizi – eksiksiz, maskesiz giriş verilerinin sıkıştırılmış temsiline sahip olan ve tamamlamaya çalıştığı eksik sürüme sahip olan – makul bir şekilde sırasıyla Öğretmen ve Öğrenci olarak adlandırılır. Öğrencinin ağı, öğretmenin maskelemeye rağmen hâlihazırda başardıklarını yeniden yapılandırarak onların veri algısını geliştirmeye çalışır.

evrişimli kod çözücü

Bu sefer, yazarlar Data2vec’i daha hızlı hale getirmek için iki önemli değişiklik yaptılar: “kıvrımların” kullanımı ve öğretmen ağının sıkıştırılmış temsillerinin “sönümlenmesi”.

İlk noktada, öğretmenin temsillerini tahmin etmesi gereken öğrenci ağı, bunu yapmak için artık Transformer’ın kod çözücü adı verilen bölümünü kullanmaz.

Bu, bir anlamda öğretmen ağının sıkıştırılmış temsillerini açmak için standart yaklaşımdır. Bunun yerine, yazarlar evrişimli sinir ağları denilen, sinir ağlarında örnek verileri sıkıştırılmış biçimde temsil etmek için temel bir araç ve Transformer’dan çok daha eski bir araç kullanırlar. Eski teknolojinin programlama alanında nasıl kalabileceğinin iyi bir örneği.

“Transformer tabanlı bir kod çözücü kullanmak yerine, eğitilmesi daha kolay ve hızlı bulduğumuz daha küçük bir evrişimli kod çözücü kullanıyoruz” diye yazıyorlar.

İkinci değişiklik için, öğretmen ağında tekrar tekrar sıkıştırılmış bir temsil oluşturmak yerine, yeni Data2vec temsili yalnızca bir kez oluşturur. Ardından, maskelenen veri noktalarının her biri için tahmin edilecek öğe olan hedef olarak yeniden kullanır.

Yazarların açıkladığı gibi, “Öğretmen modelini hesaplama maliyetini amorti etmek için, eğitim örneğinin birden fazla maskelenmiş versiyonu için öğretmen temsilini yeniden kullanıyoruz. »

“Somut olarak, eğitim örneğinin M farklı maskelenmiş versiyonlarını ele alıyoruz ve aynı hedef temsiline göre kaybı hesaplıyoruz. »

Umut verici sonuçlar

Makalenin sonuçlar bölümünde Alexei Baevski ve ekibi, eğitim süresini nasıl azalttıklarını ve görüntü tanıma, konuşma tanıma ve doğal dil işlemenin üç alanında da doğruluğu nasıl artırdıklarını tartışıyorlar.

Görüntü işleme için yazarlar, görüntü görevleri için özel olarak tasarlanmış bir sinir ağı olan “ViT”, “vizyon Dönüştürücü” olarak adlandırılan şeyi iyileştirmek için Data2vec’i temel olarak kullandılar. geçen yıl sunuldu (PDF) Alexey Dosovitskiy ve Google’daki meslektaşları tarafından. Data2vec programı, literatür açısından ViT’nin ince ayar olduğu önceden eğitilmiş bir temeldir.

Ocak sonuçlarıyla karşılaştırıldığında, Data2vec destekli ViT, klasik görüntü etiketleme testi olan ImageNet’te doğruluk açısından ViT’nin temeli olarak kullanılan diğer sinir ağlarını bir kez daha geride bıraktı ve ayrıca Data2vec’in önceki sürümünü de geçti.

Doğruluğun yanı sıra, yeni Data2vec önemli ölçüde daha az öğrenme dönemi gerektiriyordu. Data2vec’in önceki sürümü 800 çağ gerektiriyordu, bu sefer bu rakam 150 çağa düşürüldü. Ve kendi kendini denetleyen rakip bir ağın yanında, gizli otomatik kodlayıcılar veya MAE, başka bir Meta oluşturma (PDF), yeni Data2vec’in doğruluğu MAE’ninkini geçmesine rağmen, eğitim 1.600 adımdan 100’e çıktı. Daha hızlı eğitim rejimi, mutlak eğitim süresinde önemli bir azalma sağlar; MAE için 113,6 saate kıyasla Data2vec 2.0 için yalnızca 66 saat.

Zaman ve hassasiyet optimizasyonu

Konuşma tanımada görev, konuşulan bir cümlenin ses dosyasından bir alıntının eksik kısımlarını tamamlamaktır. Yeni Data2vec, orijinal data2vec ve Wav2vec, HuBERT ve WavLM adlı programlar dahil olmak üzere konuşma için birkaç rakip sinir ağına karşı yarıştı. Data2vec 2.0 hiçbir şekilde bu ağları yenemedi, ancak “daha hızlı öğrenme süresiyle diğer modellerden daha yüksek doğruluk elde ediyor. Örneğin, 43 saatlik Data2vec 2.0 eğitimi, orijinal Data2vec için 57 saat süren doğruluğa ulaşır.

Üçüncü alan olan doğal dil işleme alanında Data2vec 2.0, NYU’daki Courant Matematik Bilimleri Enstitüsü tarafından geliştirilen ve GLUE olarak bilinen genel dil anlama değerlendirme çerçevesi dahil olmak üzere bir dizi zorluk üzerinde test edildi. 2019’da.

Bir testte, ağın bir cümlenin diğerinden gelip gelmediğini (mantıksal çentikleme) tahmin etmesi gerekirken, başka bir temsili görev, ağın bir aşamayı dilbilgisi açısından doğru veya yanlış olarak etiketlemesi için zorlar.

Data2vec’in orijinal sürümünün yanı sıra iki Transformer tabanlı program, Google’ın BERT’si ve RoBERTa adlı gözden geçirilmiş bir sürümle karşılaşıldığında, 2019’da tanıtıldı Washington ve Meta Üniversitesi’ndeki Paul Allen Bilgisayar Bilimleri Okulu tarafından hazırlanan Data2vec sürüm 2.0, GLUE sonuç kümesinde iyi performans gösterirken eğitilmesi daha hızlıdır.

Bu yeni sürüm için tüm GLUE görevlerinde ortalama toplam doğruluk puanı 82,6, orijinal Data2vec’in 82,7’sinin biraz altında, ancak Roberta’nın BERT’nin 81,2 ve 82,5 puanlarından daha yüksek. Ancak Data2vec 2.0’ın bu seviyeye ulaşması yalnızca 28,2 saat sürüyor, bu orijinal Data2vec için geçen 69 saatin yarısından az ve RoBERTa için gereken 50,5 saatten çok daha az.

Sistemi diğer veri türlerine açın

Alexei Baevski ve ekibi, Data2vec’i gelecekte konuşma, görüntü ve metin dışında diğer veri biçimlerine genişleteceklerini yazıyor, bu da daha fazla genelleme olasılığını ortaya çıkarıyor.

Bir sınırlamanın yerinde kalması gerekiyor gibi görünüyor. Data2vec’in orijinal sürümünde olduğu gibi, sürüm 2.0, eğitim sırasında ağa ilk tanıtıldığında her veri türünü farklı şekilde ele almaya devam eder. Bu, Data2vec’in henüz veri türleriyle başa çıkmak için tamamen genel bir yol geliştirmediği anlamına gelir.

Görüntü, konuşma ve metinlerin tümü veri ön işleme ile hazırlanır. Bu şekilde, ağın çok modlu yönü, ekibin “küçük modaliteye özgü giriş kodlayıcıları” olarak adlandırdığı verilerle ilgili ipuçlarına hala dayanıyor.

Ayrıca, öğretmenin ağ sıkıştırılmış kodlamalarının her biri, üç veri türü için ayrı ayrı oluşturulur. Tüm veri türlerini tek bir gösterimde birleştirecek bir tür “süper kodlama” oluşturmak henüz mümkün değil.

Dolayısıyla, Data2vec 1.0’da olduğu gibi, hepsine hükmedecek gerçekten tek bir ağ olabilecek bir sinir ağı geleceğin teknolojisi olmaya devam ediyor.

Kaynak : ZDNet.com



genel-15