Bir yapay zekanın yalnızca başka bir yapay zeka tarafından üretilen verilerle eğitilmesi mümkün müdür? Kuş beyinli bir fikir gibi gelebilir. Ancak bu bir süredir ortalıkta olan bir şey ve yeni, gerçek verilere ulaşmak giderek zorlaştıkça ilgi görmeye başladı.

Anthropic, amiral gemisi modellerinden biri olan Claude 3.5 Sonnet’i eğitmek için bazı sentetik verileri kullandı. Meta, yapay zeka tarafından oluşturulan verileri kullanarak Llama 3.1 modellerine ince ayar yaptı. Ve OpenAI’nin gelecek için sentetik eğitim verilerini “akıl yürütme” modeli olan o1’den sağlayacağı söyleniyor Avcı.

Peki yapay zeka neden öncelikle verilere ihtiyaç duyuyor? tür veriye ihtiyacı var mı? Ve bu veriler Gerçekten sentetik verilerle değiştirilecek mi?

Ek açıklamaların önemi

Yapay zeka sistemleri istatistiksel makinelerdir. Pek çok örnek üzerinde eğitim alarak, bir e-postadaki “kime” ifadesinin genellikle “ilgilenebilir” ifadesinden önce gelmesi gibi tahminlerde bulunmak için bu örneklerdeki kalıpları öğrenirler.

Genellikle bu sistemlerin aldığı verilerin anlamını veya bölümlerini etiketleyen metinlerden oluşan ek açıklamalar, bu örneklerde önemli bir parçadır. Nesneleri, yerleri ve fikirleri birbirinden ayırmaya yönelik bir modeli “öğreterek” yol gösterici görevi görürler.

“Mutfak” kelimesiyle etiketlenmiş çok sayıda mutfak resminin gösterildiği bir fotoğraf sınıflandırma modelini düşünün. Model eğitildikçe “mutfak” ile genel mutfak arasında ilişkiler kurmaya başlayacak. özellikler mutfaklar (örneğin, buzdolabı ve tezgah içermesi). Eğitimden sonra, ilk örneklerde yer almayan bir mutfağın fotoğrafı verildiğinde, modelin onu bu şekilde tanımlayabilmesi gerekir. (Elbette mutfak resimlerine “inek” etiketi yapıştırılsaydı, bu onları inek olarak tanımlayacaktı, bu da iyi bir açıklamanın önemini vurguluyordu.)

Yapay zekaya olan ilgi ve geliştirilmesi için etiketli veriler sağlama ihtiyacı, ek açıklama hizmetleri pazarını şişirdi. Boyut Pazar Araştırması tahminler bugün 838,2 milyon dolar değerinde olduğunu ve önümüzdeki on yıl içinde 10,34 milyar dolar değerinde olacağını söyledi. Etiketleme işine kaç kişinin katıldığına dair kesin tahminler olmasa da, 2022 yılına ait bir kağıt Sayıyı “milyonlarca” olarak sabitliyor.

Büyük ve küçük şirketler, yapay zeka eğitim setleri için etiketler oluşturmak amacıyla veri açıklaması firmaları tarafından istihdam edilen çalışanlara güveniyor. Bu işlerden bazıları, özellikle de etiketlemenin uzmanlık bilgisi (örneğin matematik uzmanlığı) gerektirmesi durumunda, oldukça iyi ücretler ödemektedir. Diğerleri yıpratıcı olabilir. Gelişmekte olan ülkelerdeki açıklamacılar ortalama olarak saat başına yalnızca birkaç dolar ödeniyor gelecekteki konserlerin herhangi bir faydası veya garantisi olmadan.

Kurutma veri kuyusu

Dolayısıyla insanların yarattığı etiketlere alternatifler aramanın hümanist nedenleri var. Ama pratik olanları da var.

İnsanlar ancak bu kadar hızlı etiketleyebilirler. Ek açıklamacıların ayrıca ek açıklamalarında ve daha sonra bunlar üzerinde eğitilen modellerde ortaya çıkabilecek önyargıları vardır. Ek açıklama yapanlar hatalarveya talimatları etiketleyerek takılıp kalabilirsiniz. Ve insanlara bir şeyler yapmaları için para ödemek pahalıdır.

Veri genel olarak bu bakımdan pahalıdır. Shutterstock, AI satıcılarından on milyonlarca dolar ücret alıyor arşivlerReddit ise Google, OpenAI ve diğerlerine verilen lisans verilerinden yüz milyonlarca dolar kazandı.

Son olarak veri elde etmek de giderek zorlaşıyor.

Çoğu model, büyük miktarda kamuya açık veri koleksiyonu üzerine eğitilmiştir; bu veriler, sahiplerinin, verilerinin çalıntı olacağı veya bunun için kredi veya atıf alamayacakları korkusu nedeniyle giderek daha fazla geçiş yapmayı tercih ettiği verilerdir. Dünyanın en iyi 1000 web sitesinin %35’inden fazlası şimdi OpenAI’nin web kazıyıcısını engelle. Ve “yüksek kaliteli” kaynaklardan gelen verilerin yaklaşık %25’i, modelleri eğitmek için kullanılan ana veri kümelerinden kısıtlanmıştır. çalışmak kurmak.

Mevcut erişim engelleme eğilimi devam ederse Epoch AI araştırma grubu projeler geliştiricilerin 2026 ile 2032 yılları arasında üretken yapay zeka modellerini eğitmek için yeterli verilerinin tükeneceği. Bu durum, telif hakkı davaları ve sakıncalı materyallerin açık veri setlerine girmesi korkusuyla birleştiğinde, yapay zeka sağlayıcılarını bir hesaplaşmaya zorladı.

Sentetik alternatifler

İlk bakışta sentetik veriler tüm bu sorunların çözümü gibi görünüyor. Ek açıklamalara mı ihtiyacınız var? Oluştur onları. Daha fazla örnek veri? Sorun değil. Gökyüzü sınırdır.

Ve bir dereceye kadar bu doğrudur.

Washington Üniversitesi’nde gelişen teknolojilerin etik etkilerini inceleyen doktora adayı Os Keyes, TechCrunch’a şöyle konuştu: “Eğer ‘veri yeni petrolse’, sentetik veriler kendisini biyoyakıt olarak tanıtıyor ve gerçek şeyin olumsuz dışsallıkları olmadan yaratılabilir.” . “Küçük bir başlangıç ​​veri kümesini alıp bundan yeni girişleri simüle edebilir ve tahmin edebilirsiniz.”

Yapay zeka endüstrisi bu konsepti benimsedi ve onunla birlikte çalıştı.

Bu ay, kurumsal odaklı, üretken bir yapay zeka şirketi olan Writer, neredeyse tamamen sentetik veriler üzerine eğitilmiş bir model olan Palmyra X 004’ü piyasaya sürdü. Writer, bunu geliştirmenin yalnızca 700.000 dolara mal olduğunu iddia ediyor: karşılaştırıldı karşılaştırılabilir büyüklükteki bir OpenAI modeli için 4,6 milyon dolarlık tahminler.

Microsoft’un Phi açık modelleri kısmen sentetik veriler kullanılarak eğitildi. Google’ın Gemma modelleri de öyle. Nvidia bu yaz sentetik eğitim verileri üretmek için tasarlanmış bir model ailesini açıkladı ve yapay zeka girişimi Hugging Face yakın zamanda iddia ettiği şeyi yayınladı. en büyük yapay zeka eğitim veri kümesi sentetik metin.

Sentetik veri üretimi başlı başına bir iş haline geldi; değer 2030’a kadar 2,34 milyar dolar. Gartner tahmin Bu yıl yapay zeka ve analitik projeleri için kullanılan verilerin %60’ının sentetik olarak üretileceğini söyledi.

Allen Yapay Zeka Enstitüsü’nde kıdemli bir araştırma bilimcisi olan Luca Soldaini, sentetik veri tekniklerinin, kazıma (veya hatta içerik lisanslama) yoluyla kolayca elde edilemeyecek bir formatta eğitim verileri oluşturmak için kullanılabileceğini belirtti. Örneğin Meta, video oluşturucusu Movie Gen’i eğitirken, eğitim verilerindeki görüntülere altyazılar oluşturmak için Llama 3’ü kullandı; insanlar daha sonra bunları aydınlatma açıklamaları gibi daha fazla ayrıntı eklemek için geliştirdiler.

Aynı doğrultuda OpenAI, ChatGPT için eskiz defteri benzeri Canvas özelliğini oluşturmak amacıyla sentetik verileri kullanarak GPT-4o’ya ince ayar yaptığını söylüyor. Ve Amazon’un var söz konusu Alexa için konuşma tanıma modellerini eğitmek amacıyla kullandığı gerçek dünya verilerini desteklemek üzere sentetik veriler ürettiğini söyledi.

Soldaini, “Sentetik veri modelleri, belirli bir model davranışını elde etmek için hangi verilere ihtiyaç duyulduğuna dair insan sezgisini hızlı bir şekilde genişletmek için kullanılabilir” dedi.

Sentetik riskler

Ancak sentetik veriler her derde deva değil. Tüm yapay zekalarda olduğu gibi o da aynı “çöp girme, çöp çıkarma” probleminden muzdariptir. Modeller yaratmak Sentetik veriler ve bu modelleri eğitmek için kullanılan verilerin önyargıları ve sınırlamaları varsa, bunların çıktıları da benzer şekilde kusurlu olacaktır. Örneğin, temel verilerde zayıf şekilde temsil edilen gruplar sentetik verilerde de aynı şekilde temsil edilecektir.

Keyes, “Sorun şu ki, ancak bu kadarını yapabilirsiniz” dedi. “Bir veri setinde yalnızca 30 Siyah kişinin bulunduğunu varsayalım. Tahmin yapmak işe yarayabilir, ancak eğer bu 30 kişinin tamamı orta sınıfsa veya tamamı açık tenliyse ‘temsili’ veriler böyle görünecektir.”

Bu noktaya kadar 2023 çalışmak Rice Üniversitesi ve Stanford’daki araştırmacılar, eğitim sırasında sentetik verilere aşırı güvenmenin “kalite veya çeşitliliği giderek azalan” modeller yaratabileceğini buldu. Araştırmacılara göre örnekleme yanlılığı – gerçek dünyanın zayıf temsili – birkaç nesil eğitimden sonra modelin çeşitliliğinin kötüleşmesine neden oluyor (her ne kadar bir miktar gerçek dünya verisini karıştırmanın bunu hafifletmeye yardımcı olduğunu da bulmuşlarsa da).

Keyes, OpenAI’nin o1’i gibi karmaşık modellerde ek riskler görüyor ve bunların sentetik verilerde fark edilmesi daha zor halüsinasyonlar oluşturabileceğini düşünüyor. Bunlar da veriler üzerinde eğitilen modellerin doğruluğunu azaltabilir; özellikle de halüsinasyonların kaynaklarının tanımlanması kolay değilse.

“Karmaşık modeller halüsinasyon görüyor; Karmaşık modellerin ürettiği veriler halüsinasyonlar içeriyor” diye ekledi Keyes. “Ve o1 gibi bir modelle, geliştiricilerin kendisi de eserlerin neden ortaya çıktığını açıklayamıyor.”

Bileşik halüsinasyonlar anlamsız modellere yol açabilir. A çalışmak Nature dergisinde yayınlanan bir makale, hatalarla dolu veriler üzerinde eğitilen modellerin nasıl daha da fazlası hatayla dolu veriler ve bu geri bildirim döngüsünün gelecek nesil modellerin kalitesini nasıl düşürdüğü. Araştırmacılar, modellerin nesiller geçtikçe daha ezoterik bilgi anlayışını kaybettiğini, daha genel hale geldiğini ve çoğu zaman kendilerine sorulan sorularla alakasız cevaplar ürettiğini buldu.

Resim Kredisi:Ilia Shumailov ve ark.

Bir takip çalışmak görüntü oluşturucular gibi diğer model türlerinin bu tür çökmelere karşı bağışık olmadığını gösteriyor:

Resim Kredisi:Ilia Shumailov ve ark.

Soldaini, en azından amaç unutkan sohbet robotlarının ve homojen görüntü oluşturucuların eğitilmesinden kaçınmaksa “ham” sentetik verilere güvenilmemesi gerektiğini kabul ediyor. Kendisi, bunu “güvenli bir şekilde” kullanmanın, onu kapsamlı bir şekilde incelemeyi, düzenlemeyi ve filtrelemeyi ve tıpkı diğer veri kümelerinde yaptığınız gibi ideal olarak taze, gerçek verilerle eşleştirmeyi gerektirdiğini söylüyor.

Bunu yapmamak eninde sonunda modelin çökmesine yol açmakbir model çıktılarında daha az “yaratıcı” ve daha önyargılı hale gelir ve sonunda işlevselliğinden ciddi şekilde ödün verir. Her ne kadar bu süreç ciddileşmeden tespit edilip durdurulabilse de bu bir risktir.

Soldaini, “Araştırmacıların oluşturulan verileri incelemesi, üretim sürecini yinelemesi ve düşük kaliteli veri noktalarını ortadan kaldıracak önlemleri belirlemesi gerekiyor” dedi. “Sentetik veri hatları kendi kendini geliştiren bir makine değil; çıktıları eğitim için kullanılmadan önce dikkatle incelenmeli ve geliştirilmelidir.”

OpenAI CEO’su Sam Altman bir keresinde yapay zekanın bir gün Kendini etkili bir şekilde eğitmeye yetecek kadar iyi sentetik veriler üretir. Ancak bunun mümkün olduğunu varsayarak, teknoloji henüz mevcut değil. Hiçbir büyük yapay zeka laboratuvarı eğitilmiş bir model yayınlamadı yalnızca sentetik verilere dayanmaktadır.

En azından öngörülebilir gelecekte döngüde insanlara ihtiyacımız olacak gibi görünüyor bir yerde Bir modelin eğitiminin ters gitmediğinden emin olmak için.



genel-24