Kâr amacı gütmeyen bir AI Güvenlik Çalışma Grubu olan MLCommons, AI araştırması için dünyanın en büyük kamu malı ses kayıtlarından birini yayınlamak için AI Dev Platform Hugging Face ile birlikte çalıştı.
Veri seti, Denetimsiz insanların konuşmasıen az 89 farklı dili kapsayan bir milyon saatten fazla ses içerir. MLCommons, “konuşma teknolojisinin çeşitli alanlarında” Ar -Ge’yi destekleme arzusuyla yaratmanın motive olduğunu söyledi.
Organizasyon, “İngilizce dışındaki diller için daha geniş doğal dil işleme araştırmalarını desteklemek, küresel olarak daha fazla insana iletişim teknolojilerini getirmeye yardımcı oluyor” diye yazdı. Blog yazısı Perşembe. “Araştırma topluluğunun, özellikle düşük kaynaklı dil konuşma modellerini iyileştirme, farklı aksanlar ve lehçelerde konuşma tanıma ve konuşma sentezindeki yeni uygulamalarda gelişmeye devam etmesi ve geliştirmeye devam etmesi için çeşitli yollar bekliyoruz.”
Emin olmak takdire şayan bir hedef. Ancak denetimsiz insanların konuşması gibi AI veri setleri, bunları kullanmayı seçen araştırmacılar için risk taşıyabilir.
Önyargılı veriler bu risklerden biridir. Denetimsiz insanların konuşmasındaki kayıtlar, belki de en iyi Wayback Machine Web Arşiv aracı ile bilinen kâr amacı gütmeyen Archive.org’dan geldi. Archive.org’un katkıda bulunanlarının çoğu İngilizce konuşan-ve Amerikan-denetimsiz insanların konuşmalarındaki kayıtların neredeyse tamamı Amerikan aksanlı İngilizce’de. Resmi Proje sayfasındaki ReadMe’ye göre.
Bu, dikkatli bir filtreleme olmadan, denetimsiz insanların konuşması üzerine eğitilmiş konuşma tanıma ve ses sentezleyici modelleri gibi AI sistemlerinin aynı önyargılardan bazılarını sergileyebileceği anlamına gelir. Örneğin, anadili olmayan bir konuşmacı tarafından konuşulan İngilizceyi kopyalamak veya İngilizce dışındaki dillerde sentetik sesler üretmekte zorluk çekebilirler.
Denetimsiz insanların konuşması, seslerinin ticari uygulamalar da dahil olmak üzere AI araştırma amaçları için kullanıldığını bilmeden insanlardan gelen kayıtlar içerebilir. MLCommons, veri kümesindeki tüm kayıtların kamu malı olduğunu veya Creative Commons lisansları altında mevcut olduğunu söylerken, olasılık hataları yapıldı.
Bir MIT analizine göreYüzlerce halka açık AI eğitim veri setleri lisans bilgisi yoktur ve hatalar içerir. AI Etik odaklı kâr amacı gütmeyen kuruluşun CEO’su Ed Newton-Rex de dahil olmak üzere Yaratıcı savunucuları, yaratıcıların bu içerik oluşturucuları seçen zahmetli yükler nedeniyle AI veri setlerini “devre dışı bırakması” gerekmemesi gerektiğine dair dava açtı. .
“Birçok yaratıcının (örneğin Squarespace kullanıcıları) anlamlı bir yol yok,” Newton-Rex yazdı Geçen Haziran ayında X’teki bir yazıda. “Yaratıcılar için olabilmek Çıkış, (1) inanılmaz derecede kafa karıştırıcı ve (2) kapsamlarında acımasızca eksik olan birden fazla örtüşen devre dışı bırakma yöntemi vardır. Mükemmel bir evrensel devre dışı bırakma olsa bile, üretken AI’nın çalışmalarını onlarla rekabet etmek için kullandığı göz önüne alındığında, birçoğu dışarıda kalabileceklerini fark etmeyecekti. ”
MLCommons, denetimsiz insanların konuşmasının kalitesini güncellemeye, sürdürmeye ve iyileştirmeye kararlı olduğunu söylüyor. Ancak potansiyel kusurlar göz önüne alındığında, geliştiricileri ciddi bir dikkat göstermeye yönlendirir.

