Apple bir yayınladı teknik makale Apple Intelligence’ı desteklemek için geliştirdiği modelleri ve önümüzdeki birkaç ay içinde iOS, macOS ve iPadOS’a gelecek olan üretken yapay zeka özelliklerinin yelpazesini ayrıntılı olarak açıklıyor.

Makalede Apple, buna karşı çıkıyor suçlamalar Apple Intelligence’ın bazı modellerini eğitirken etik açıdan sorgulanabilir bir yaklaşım benimsediğini, özel kullanıcı verilerini kullanmadığını ve Apple Intelligence için kamuya açık ve lisanslı verilerin bir kombinasyonundan yararlandığını yineledi.

“[The] Apple, makalede, “ön eğitim veri kümesi, yayıncılardan lisansladığımız verilerden, kamuya açık veya açık kaynaklı veri kümelerinden ve web tarayıcımız Applebot tarafından taranan kamuya açık bilgilerden oluşur” diye yazıyor. “Kullanıcı gizliliğini korumaya odaklanmamız göz önüne alındığında, veri karışımına hiçbir özel Apple kullanıcı verisinin dahil edilmediğini belirtiyoruz.”

Temmuz ayında Proof News bildirildi Apple’ın yüz binlerce YouTube videosundan altyazılar içeren The Pile adlı bir veri kümesini, cihaz üzerinde işleme için tasarlanmış bir model ailesini eğitmek için kullandığını. Altyazıları The Pile’da toplanan birçok YouTube içerik üreticisi bundan haberdar değildi ve buna izin vermedi; Apple daha sonra bu modelleri ürünlerindeki herhangi bir AI özelliğini desteklemek için kullanmayı planlamadığını belirten bir açıklama yayınladı.

Apple’ın Haziran ayında WWDC 2024’te ilk kez duyurduğu Apple Temel Modelleri (AFM) adlı modellerin perde arkasını aralayan teknik makale, AFM modelleri için eğitim verilerinin “sorumlu” bir şekilde -ya da en azından Apple’ın tanımına göre- kaynaklandığını vurguluyor.

AFM modellerinin eğitim verileri, kamuya açık web verilerinin yanı sıra açıklanmayan yayıncılardan alınan lisanslı verileri de içerir. The New York Times’a göre, Apple birkaç yayıncıya ulaştık 2023’ün sonuna doğru NBC, Condé Nast ve IAC dahil olmak üzere yayıncıların haber arşivlerinde modelleri eğitmek için en az 50 milyon dolar değerinde çok yıllık anlaşmalar yapıldı. Apple’ın AFM modelleri ayrıca GitHub’da barındırılan açık kaynak kodlarında, özellikle Swift, Python, C, Objective-C, C++, JavaScript, Java ve Go kodunda eğitildi.

İzinsiz kod üzerinde, hatta açık kod üzerinde bile eğitim modelleri oluşturmak, geliştiriciler arasında anlaşmazlık noktası. Bazı açık kaynak kod tabanları lisanslı değildir veya kullanım koşullarında AI eğitimine izin vermez, bazı geliştiriciler bunu savunuyor. Ancak Apple, MIT, ISC veya Apache lisansı gibi yalnızca asgari kullanım kısıtlamalarına sahip depoları dahil etmeye çalışmak için kod için “lisans filtrelemesi” yaptığını söylüyor.

Makaleye göre, Apple, AFM modellerinin matematik becerilerini artırmak için eğitim setine özellikle web sayfalarından, matematik forumlarından, bloglardan, öğreticilerden ve seminerlerden matematik soruları ve cevapları ekledi. Şirket ayrıca, hassas bilgileri kaldırmak için filtrelenmiş, “eğitim … modelleri için kullanımına izin veren lisanslara” sahip “yüksek kaliteli, kamuya açık” veri kümelerine (makalenin adını vermediği) de dokundu.

Toplamda, AFM modelleri için eğitim veri kümesi yaklaşık 6,3 trilyon token’a denk geliyor. (Token’lar, genellikle üretken yapay zeka modelleri tarafından sindirilmesi daha kolay olan, lokma büyüklüğündeki veri parçalarıdır.) Karşılaştırma yapmak gerekirse, bu, Meta’nın amiral gemisi metin üretme modeli Llama 3.1 405B’yi eğitmek için kullandığı token sayısının (15 trilyon) yarısından bile az.

Apple, AFM modellerini ince ayarlamak ve zehirli madde püskürtme gibi istenmeyen davranışları azaltmak için insan geri bildirimleri ve sentetik veriler de dahil olmak üzere ek veriler elde etti.

“Modellerimiz, kullanıcıların Apple ürünleri genelinde günlük aktivitelerini gerçekleştirmelerine yardımcı olmak amacıyla oluşturuldu,
Şirket açıklamasında, “Apple’ın temel değerlerinde yer alan ve her aşamada sorumlu yapay zeka ilkelerimize dayanan bir anlayışa sahibiz” denildi.

Makalede kesin bir kanıt veya şok edici bir içgörü yok – ve bu dikkatli bir tasarımla. Rekabet baskıları nedeniyle ve ayrıca ifşa edilmesi nedeniyle bu tür makaleler nadiren çok açıklayıcıdır fazla şirketleri hukuki sıkıntıya sokabilecek çok şey var.

Bazı şirketler, kamuya açık web verilerini toplayarak eğitim modelleri geliştiriyor ve uygulamalarının güvenlik tarafından korunduğunu iddia ediyor. adil kullanım doktrin. Fakat bu çokça tartışılan ve giderek artan sayıda davaya konu olan bir konu.

Apple, makalesinde web yöneticilerinin tarayıcısının verilerini toplamasını engellemesine izin verdiğini belirtiyor. Ancak bu, bireysel yaratıcıları zor durumda bırakıyor. Örneğin, portföyü Apple’ın veri toplamasını engellemeyi reddeden bir sitede barındırılıyorsa bir sanatçı ne yapmalı?

Mahkeme savaşları, üretken AI modellerinin ve bunların eğitilme biçimlerinin kaderini belirleyecek. Ancak şimdilik Apple, istenmeyen yasal incelemelerden kaçınırken kendini etik bir oyuncu olarak konumlandırmaya çalışıyor.



genel-24