Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Sentetik verilerin vaatleri ve tehlikeleri
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Sentetik verilerin vaatleri ve tehlikeleri

Liste

Sentetik verilerin vaatleri ve tehlikeleri

teknomers
Son güncelleme: 24 Aralık 2024 20:09
teknomers
Paylaş
Paylaş


Contents
  • Ek açıklamaların önemi
  • Kurutma veri kuyusu
  • Sentetik alternatifler
  • Sentetik riskler

Bir yapay zekanın yalnızca başka bir yapay zeka tarafından üretilen verilerle eğitilmesi mümkün müdür? Kuş beyinli bir fikir gibi gelebilir. Ancak bu bir süredir ortalıkta olan bir şey ve yeni, gerçek verilere ulaşmak giderek zorlaştıkça ilgi görmeye başladı.

Anthropic, amiral gemisi modellerinden biri olan Claude 3.5 Sonnet’i eğitmek için bazı sentetik verileri kullandı. Meta, yapay zeka tarafından oluşturulan verileri kullanarak Llama 3.1 modellerine ince ayar yaptı. Ve OpenAI’nin gelecek için sentetik eğitim verilerini “akıl yürütme” modeli olan o1’den sağlayacağı söyleniyor Avcı.

Peki yapay zeka neden öncelikle verilere ihtiyaç duyuyor? tür veriye ihtiyacı var mı? Ve bu veriler Gerçekten sentetik verilerle değiştirilecek mi?

Ek açıklamaların önemi

Yapay zeka sistemleri istatistiksel makinelerdir. Pek çok örnek üzerinde eğitim alarak, bir e-postadaki “kime” ifadesinin genellikle “ilgilenebilir” ifadesinden önce gelmesi gibi tahminlerde bulunmak için bu örneklerdeki kalıpları öğrenirler.

Genellikle bu sistemlerin aldığı verilerin anlamını veya bölümlerini etiketleyen metinlerden oluşan ek açıklamalar, bu örneklerde önemli bir parçadır. Nesneleri, yerleri ve fikirleri birbirinden ayırmaya yönelik bir modeli “öğreterek” yol gösterici görevi görürler.

“Mutfak” kelimesiyle etiketlenmiş çok sayıda mutfak resminin gösterildiği bir fotoğraf sınıflandırma modelini düşünün. Model eğitildikçe “mutfak” ile genel mutfak arasında ilişkiler kurmaya başlayacak. özellikler mutfaklar (örneğin, buzdolabı ve tezgah içermesi). Eğitimden sonra, ilk örneklerde yer almayan bir mutfağın fotoğrafı verildiğinde, modelin onu bu şekilde tanımlayabilmesi gerekir. (Elbette mutfak resimlerine “inek” etiketi yapıştırılsaydı, bu onları inek olarak tanımlayacaktı, bu da iyi bir açıklamanın önemini vurguluyordu.)

Yapay zekaya olan ilgi ve geliştirilmesi için etiketli veriler sağlama ihtiyacı, ek açıklama hizmetleri pazarını şişirdi. Boyut Pazar Araştırması tahminler bugün 838,2 milyon dolar değerinde olduğunu ve önümüzdeki 10 yıl içinde 10,34 milyar dolar değerinde olacağını söyledi. Etiketleme işine kaç kişinin katıldığına dair kesin tahminler olmasa da, 2022 yılına ait bir kağıt Sayıyı “milyonlarca” olarak sabitliyor.

Büyük ve küçük şirketler, yapay zeka eğitim setleri için etiketler oluşturmak amacıyla veri açıklaması firmaları tarafından istihdam edilen çalışanlara güveniyor. Bu işlerden bazıları, özellikle de etiketlemenin uzmanlık bilgisi (örneğin matematik uzmanlığı) gerektirmesi durumunda, oldukça iyi ücretler ödemektedir. Diğerleri yıpratıcı olabilir. Gelişmekte olan ülkelerdeki açıklamacılar ortalama olarak saat başına yalnızca birkaç dolar ödeniyorgelecekteki konserlerin herhangi bir faydası veya garantisi olmadan.

Kurutma veri kuyusu

Dolayısıyla insanların yarattığı etiketlere alternatifler aramanın hümanist nedenleri var. Örneğin Uber, yapay zeka açıklamaları ve veri etiketleme üzerinde çalışacak çalışanlardan oluşan filosunu genişletiyor. Ama pratik olanları da var.

İnsanlar ancak bu kadar hızlı etiketleyebilirler. Ek açıklamacıların ayrıca ek açıklamalarında ve daha sonra bunlar üzerinde eğitilen modellerde ortaya çıkabilecek önyargıları vardır. Ek açıklama yapanlar hatalarveya talimatları etiketleyerek takılıp kalabilirsiniz. Ve insanlara bir şeyler yapmaları için para ödemek pahalıdır.

Veri genel olarak bu bakımdan pahalıdır. Shutterstock, AI satıcılarından on milyonlarca dolar ücret alıyor arşivlerReddit ise Google, OpenAI ve diğerlerine verilen lisans verilerinden yüz milyonlarca dolar kazandı.

Son olarak veri elde etmek de giderek zorlaşıyor.

Çoğu model, büyük miktarda kamuya açık veri koleksiyonu üzerine eğitilmiştir; bu veriler, sahiplerinin, verilerinin çalıntı olacağı veya bunun için kredi veya atıf alamayacakları korkusu nedeniyle giderek daha fazla geçiş yapmayı tercih ettiği verilerdir. Dünyanın en iyi 1000 web sitesinin %35’inden fazlası şimdi OpenAI’nin web kazıyıcısını engelle. Ve “yüksek kaliteli” kaynaklardan gelen verilerin yaklaşık %25’i, modelleri eğitmek için kullanılan ana veri kümelerinden kısıtlanmıştır. çalışmak kurmak.

Mevcut erişim engelleme eğilimi devam ederse Epoch AI araştırma grubu projeler geliştiricilerin 2026 ile 2032 yılları arasında üretken yapay zeka modellerini eğitmek için verilerinin tükeneceği. Bu durum, telif hakkı davaları ve sakıncalı materyallerin açık veri kümelerine girmesi korkusuyla birleştiğinde, yapay zeka sağlayıcılarını bir hesaplaşmaya zorladı.

Sentetik alternatifler

İlk bakışta sentetik veriler tüm bu sorunların çözümü gibi görünüyor. Ek açıklamalara mı ihtiyacınız var? Oluştur onları. Daha fazla örnek veri? Sorun değil. Gökyüzü sınırdır.

Ve bir dereceye kadar bu doğrudur.

Washington Üniversitesi’nde gelişen teknolojilerin etik etkilerini inceleyen doktora adayı Os Keyes, TechCrunch’a şöyle konuştu: “Eğer ‘veri yeni petrolse’, sentetik veriler kendisini biyoyakıt olarak tanıtıyor ve gerçek şeyin olumsuz dışsallıkları olmadan yaratılabilir.” . “Küçük bir başlangıç ​​veri kümesini alıp bundan yeni girişleri simüle edebilir ve tahmin edebilirsiniz.”

Yapay zeka endüstrisi bu konsepti benimsedi ve onunla birlikte çalıştı.

Bu ay, kurumsal odaklı, üretken bir yapay zeka şirketi olan Writer, neredeyse tamamen sentetik veriler üzerine eğitilmiş bir model olan Palmyra X 004’ü piyasaya sürdü. Writer, bunu geliştirmenin yalnızca 700.000 dolara mal olduğunu iddia ediyor: karşılaştırıldı karşılaştırılabilir büyüklükteki bir OpenAI modeli için 4,6 milyon dolarlık tahminler.

Microsoft’un Phi açık modelleri kısmen sentetik veriler kullanılarak eğitildi. Google’ın Gemma modelleri de öyle. Nvidia bu yaz sentetik eğitim verileri üretmek için tasarlanmış bir model ailesini açıkladı ve yapay zeka girişimi Hugging Face yakın zamanda iddia ettiği şeyi yayınladı. en büyük yapay zeka eğitim veri kümesi sentetik metin.

Sentetik veri üretimi başlı başına bir iş haline geldi; değer 2030’a kadar 2,34 milyar dolar. Gartner tahmin Bu yıl yapay zeka ve analitik projeleri için kullanılan verilerin %60’ının sentetik olarak üretileceğini söyledi.

Allen Yapay Zeka Enstitüsü’nde kıdemli bir araştırma bilimcisi olan Luca Soldaini, sentetik veri tekniklerinin, kazıma (veya hatta içerik lisanslama) yoluyla kolayca elde edilemeyecek bir formatta eğitim verileri oluşturmak için kullanılabileceğini belirtti. Örneğin Meta, video oluşturucusu Movie Gen’i eğitirken, eğitim verilerindeki görüntülere altyazılar oluşturmak için Llama 3’ü kullandı; insanlar daha sonra bunları aydınlatma açıklamaları gibi daha fazla ayrıntı eklemek için geliştirdiler.

Aynı doğrultuda OpenAI, ChatGPT için eskiz defteri benzeri Canvas özelliğini oluşturmak amacıyla sentetik verileri kullanarak GPT-4o’ya ince ayar yaptığını söylüyor. Ve Amazon’un var söz konusu Alexa için konuşma tanıma modellerini eğitmek amacıyla kullandığı gerçek dünya verilerini desteklemek üzere sentetik veriler ürettiğini söyledi.

Soldaini, “Sentetik veri modelleri, belirli bir model davranışını elde etmek için hangi verilere ihtiyaç duyulduğuna dair insan sezgisini hızlı bir şekilde genişletmek için kullanılabilir” dedi.

Sentetik riskler

Ancak sentetik veriler her derde deva değil. Tüm yapay zekalarda olduğu gibi o da aynı “çöp girme, çöp çıkarma” probleminden muzdariptir. Modeller yaratmak Sentetik veriler ve bu modelleri eğitmek için kullanılan verilerin önyargıları ve sınırlamaları varsa, bunların çıktıları da benzer şekilde kusurlu olacaktır. Örneğin, temel verilerde zayıf şekilde temsil edilen gruplar sentetik verilerde de aynı şekilde temsil edilecektir.

Keyes, “Sorun şu ki, ancak bu kadarını yapabilirsiniz” dedi. “Bir veri setinde yalnızca 30 Siyah kişinin bulunduğunu varsayalım. Tahmin yapmak işe yarayabilir, ancak eğer bu 30 kişinin tamamı orta sınıfsa veya tamamı açık tenliyse ‘temsili’ veriler böyle görünecektir.”

Bu noktaya kadar 2023 çalışmak Rice Üniversitesi ve Stanford’daki araştırmacılar, eğitim sırasında sentetik verilere aşırı güvenmenin “kalite veya çeşitliliği giderek azalan” modeller yaratabileceğini buldu. Araştırmacılara göre örnekleme yanlılığı (gerçek dünyanın zayıf temsili), birkaç nesil eğitimden sonra modelin çeşitliliğinin kötüleşmesine neden oluyor (her ne kadar bir miktar gerçek dünya verisini karıştırmanın bunu hafifletmeye yardımcı olduğunu da bulmuşlarsa da).

Keyes, OpenAI’nin o1’i gibi karmaşık modellerde ek riskler görüyor ve bunların sentetik verilerde fark edilmesi daha zor halüsinasyonlar oluşturabileceğini düşünüyor. Bunlar da veriler üzerinde eğitilen modellerin doğruluğunu azaltabilir; özellikle de halüsinasyonların kaynaklarının belirlenmesi kolay değilse.

“Karmaşık modeller halüsinasyon görüyor; Karmaşık modellerin ürettiği veriler halüsinasyonlar içeriyor” diye ekledi Keyes. “Ve o1 gibi bir modelle, geliştiricilerin kendisi de eserlerin neden ortaya çıktığını açıklayamıyor.”

Bileşik halüsinasyonlar anlamsız modellere yol açabilir. A çalışmak Nature dergisinde yayınlanan bir makale, hatalarla dolu verilerle eğitilen modellerin nasıl oluştuğunu ortaya koyuyor daha da fazlası hatayla dolu veriler ve bu geri bildirim döngüsünün gelecek nesil modellerin kalitesini nasıl düşürdüğü. Araştırmacılar, modellerin nesiller geçtikçe daha ezoterik bilgi anlayışını kaybettiğini, daha genel hale geldiğini ve çoğu zaman kendilerine sorulan sorularla alakasız cevaplar ürettiğini buldu.

Resim Kredisi:Ilia Shumailov ve ark.

Bir takip çalışmak görüntü oluşturucular gibi diğer model türlerinin bu tür çökmelere karşı bağışık olmadığını gösteriyor:

Resim Kredisi:Ilia Shumailov ve ark.

Soldaini, en azından amaç unutkan sohbet robotlarının ve homojen görüntü oluşturucuların eğitilmesinden kaçınmaksa “ham” sentetik verilere güvenilmemesi gerektiğini kabul ediyor. Kendisi, bunu “güvenli bir şekilde” kullanmanın, onu kapsamlı bir şekilde incelemeyi, düzenlemeyi ve filtrelemeyi ve tıpkı diğer veri kümelerinde yaptığınız gibi ideal olarak taze, gerçek verilerle eşleştirmeyi gerektirdiğini söylüyor.

Bunu yapmamak eninde sonunda modelin çökmesine yol açmakbir model çıktılarında daha az “yaratıcı” ve daha önyargılı hale gelir ve sonunda işlevselliğinden ciddi şekilde ödün verir. Her ne kadar bu süreç ciddileşmeden tespit edilip durdurulabilse de bu bir risktir.

Soldaini, “Araştırmacıların oluşturulan verileri incelemesi, üretim sürecini yinelemesi ve düşük kaliteli veri noktalarını ortadan kaldıracak önlemleri belirlemesi gerekiyor” dedi. “Sentetik veri hatları kendi kendini geliştiren bir makine değil; çıktıları eğitim için kullanılmadan önce dikkatle incelenmeli ve geliştirilmelidir.”

OpenAI CEO’su Sam Altman bir keresinde yapay zekanın bir gün Kendini etkili bir şekilde eğitmeye yetecek kadar iyi sentetik veriler üretir. Ancak bunun mümkün olduğunu varsayarak, teknoloji henüz mevcut değil. Hiçbir büyük yapay zeka laboratuvarı eğitilmiş bir model yayınlamadı yalnızca sentetik verilere dayanmaktadır.

En azından öngörülebilir gelecekte döngüde insanlara ihtiyacımız olacak gibi görünüyor bir yerde Bir modelin eğitiminin ters gitmediğinden emin olmak için.

TechCrunch’ın yapay zeka odaklı bir haber bülteni var! Buradan kaydolun Her Çarşamba gelen kutunuza almak için.

Güncelleme: Bu hikaye ilk olarak 23 Ekim’de yayınlandı ve daha fazla bilgi ile 24 Aralık’ta güncellendi.



genel-24

Ather Energy ve Ola Electric, Temmuz ayında EV 2 tekerlekli satışlarında en keskin düşüşü gördü
En İyi İndirimler: Nex Playground ve Pixel Buds 2A’da Fırsatlar!
Yeni premium iPhone 15 modellerine güç veren Apple’ın ilk 3nm yonga seti Pro’ya dönüşüyor
Apple, Çin’in WeChat uygulamasında bir çevrimiçi mağaza başlattı
Samsung, Yıllık Geliştiriciler Konferansı’nda üretken yapay zeka modeli Gauss’u tanıtıyor
ETİKETLENDİ:AraştırmaEğitimsentetiksentetik verilertehlikeleriüretken yapay zekavaatleriverilerinyapay zeka
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Windows Central Tech Awards 2024 — Yılın en iyi bilgisayarları, araçları, aksesuarları ve yazılım yeniliklerini sıralıyor
Sonraki Makale “1969 Noel Arifesinde insanları aya indirdik, 2024 Noel Arifesinde ise bir yıldıza sarılmaya çalışacağız.” NASA’nın Parker sondası Güneş’e rekor kıran bir yaklaşım gerçekleştirdi

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Valve’ın Yıldız Yönetmeni, Para İçin Devam Oyunu Yapmamayı Takdir Ediyor
Oyun
Helion, Microsoft için Güç Santrali Kurmak Üzere 465 Milyon Dolar Yatırım Aldı
Genel
Kevin O’Leary Utah’daki Dev Veri Merkezini Küçültmeye Karar Verdi
Liste
Kritik DentaQuest Veri İhlali: 2.6 Milyon Hesap Bilgileri Tehlikede
Siber Güvenlik
DOGE İfşası: Elon Musk’a Açılan Davanın Şok Edici Detayları
Genel
Qualcomm Sohbeti: Snapdragon C, RTX Spark ve Yapay Zeka Geleceği
Donanım
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?