Gizli ChatGPT konuşmalarınızın yakın zamanda bildirilen OpenAI sistemlerindeki bir ihlalde ele geçirildiği konusunda endişelenmenize gerek yok. Saldırının kendisi rahatsız edici olsa da yüzeysel görünüyor — ancak AI şirketlerinin kısa sürede kendilerini hacker’lar için en cazip hedeflerden biri haline getirdiğini hatırlatıyor.
New York Times Eski OpenAI çalışanı Leopold Aschenbrenner, saldırıyı daha ayrıntılı olarak bildirdi yakın zamanda bir podcast’te buna işaret etti. Bunu “büyük bir güvenlik olayı” olarak adlandırdı ancak ismi açıklanmayan şirket kaynakları Times’a, hacker’ın yalnızca bir çalışan tartışma forumuna erişim sağladığını söyledi. (Onay ve yorum için OpenAI’ye ulaştım.)
Hiçbir güvenlik ihlali gerçekten önemsiz olarak görülmemeli ve OpenAI’nin dahili geliştirme konuşmalarını dinlemenin kesinlikle bir değeri var. Ancak bu, bir hacker’ın dahili sistemlere, devam eden modellere, gizli yol haritalarına vb. erişmesinden çok uzak.
Ama yine de bizi korkutmalı, bunun nedeni illa ki Çin veya diğer rakiplerin yapay zeka silahlanma yarışında bizi geçmesi değil. Basit gerçek şu ki bu yapay zeka şirketleri muazzam miktarda çok değerli verinin kapıcıları haline geldi.
OpenAI ve daha az ölçüde diğer yapay zeka şirketlerinin oluşturduğu veya erişebildiği üç tür veriden bahsedelim: yüksek kaliteli eğitim verileri, toplu kullanıcı etkileşimleri ve müşteri verileri.
Şirketler bu veri yığınları konusunda inanılmaz derecede gizli oldukları için tam olarak hangi eğitim verilerine sahip oldukları belirsizdir. Ancak bunların sadece kazınmış web veri yığınları olduğunu düşünmek bir hatadır. Evet, Pile gibi web kazıyıcıları veya veri kümeleri kullanıyorlar ancak bu ham verileri GPT-4o gibi bir modeli eğitmek için kullanılabilecek bir şeye dönüştürmek devasa bir görevdir. Bunu yapmak için çok miktarda insan çalışma saati gerekir — yalnızca kısmen otomatikleştirilebilir.
Bazı makine öğrenimi mühendisleri, büyük bir dil modelinin (veya belki de herhangi bir dönüştürücü tabanlı sistemin) yaratılmasında rol oynayan tüm faktörler arasında en önemli olanının veri kümesi kalitesi olduğunu ileri sürmüşlerdir. Bu yüzden Twitter ve Reddit’te eğitilen bir model, geçen yüzyılın her yayınlanmış çalışmasında eğitilen bir model kadar etkili olmayacaktır. (Ve muhtemelen OpenAI’nin bildirildiğine göre (Eğitim verilerinde telif hakkıyla korunan kitaplar gibi şüpheli yasal kaynakları kullandılar ve bu uygulamadan vazgeçtiklerini iddia ediyorlar.)
Dolayısıyla OpenAI’ın oluşturduğu eğitim veri kümeleri, diğer şirketlerden rakip eyaletlere ve ABD’deki düzenleyicilere kadar rakipler için muazzam bir değere sahip. FTC veya mahkemeler tam olarak hangi verilerin kullanıldığını ve OpenAI’ın bu konuda doğruyu söyleyip söylemediğini bilmek istemez mi?
Ancak belki de daha da değerli olanı OpenAI’nin muazzam kullanıcı verisi hazinesidir – muhtemelen yüz binlerce konu hakkında ChatGPT ile yapılan milyarlarca konuşma. Arama verileri bir zamanlar web’in kolektif ruhunu anlamak için anahtar olduğu gibi, ChatGPT de Google kullanıcılarının evreni kadar geniş olmayabilecek bir nüfusun nabzını tutuyor, ancak çok daha fazla derinlik sağlıyor. (Bilmiyorsanız, devre dışı bırakmadığınız sürece konuşmalarınız eğitim verileri için kullanılıyor.)
Google’da, “klimalar” için yapılan aramalardaki artış, pazarın biraz hareketlendiğini gösterir. Ancak bu kullanıcılar daha sonra ne istedikleri, ne kadar para harcamaya istekli oldukları, evlerinin nasıl olduğu, kaçınmak istedikleri üreticiler vb. hakkında tam bir sohbet etmezler. Bunun değerli olduğunu biliyorsunuz çünkü Google, aramalar yerine yapay zeka etkileşimlerini kullanarak kullanıcılarını bu bilgileri sağlamaya ikna etmeye çalışıyor!
İnsanların ChatGPT ile kaç tane görüşme yaptığını ve bu bilginin sadece yapay zeka geliştiricileri için değil, pazarlama ekipleri, danışmanlar, analistler için de ne kadar faydalı olduğunu düşünün… bu bir altın madeni.
Son veri kategorisi, açık pazarda muhtemelen en yüksek değere sahip olanıdır: Müşterilerin yapay zekayı nasıl kullandıkları ve modellere kendilerinin aktardığı veriler.
Yüzlerce büyük şirket ve sayısız küçük şirket, eşit derecede büyük çeşitlilikteki görevler için OpenAI ve Anthropic’in API’leri gibi araçları kullanır. Ve bir dil modelinin onlar için yararlı olması için, genellikle kendi dahili veritabanlarında ince ayar yapılması veya başka bir şekilde erişim sağlanması gerekir.
Bu, eski bütçe sayfaları veya personel kayıtları (örneğin, daha kolay aranabilir hale getirmek için) kadar sıradan veya yayınlanmamış bir yazılım parçası için kod kadar değerli bir şey olabilir. Yapay zekanın yetenekleriyle ne yaptıkları (ve gerçekten yararlı olup olmadıkları) onların işidir, ancak basit gerçek şu ki, yapay zeka sağlayıcısı, diğer tüm SaaS ürünleri gibi ayrıcalıklı erişime sahiptir.
Bunlar endüstriyel sırlardır ve AI şirketleri aniden bunların çoğunun tam kalbinde yer alır. Endüstrinin bu tarafının yeniliği, AI süreçlerinin henüz standartlaştırılmamış veya tam olarak anlaşılmamış olması nedeniyle özel bir risk taşır.
Herhangi bir SaaS sağlayıcısı gibi, AI şirketleri de endüstri standardı güvenlik, gizlilik, şirket içi seçenekler ve genel olarak hizmetlerini sorumlu bir şekilde sağlama konusunda mükemmel bir yeteneğe sahiptir. OpenAI’nin Fortune 500 müşterilerinin özel veritabanlarının ve API çağrılarının çok sıkı bir şekilde kilitlendiğinden şüphem yok! Kesinlikle AI bağlamında gizli verileri ele almanın içerdiği risklerin farkında olmalılar veya daha fazlasına sahip olmalılar. (OpenAI’nin bu saldırıyı bildirmemiş olması kendi tercihleri ancak buna acilen ihtiyaç duyan bir şirket için güven uyandırmıyor.)
Ancak iyi güvenlik uygulamaları, korumayı amaçladıkları şeyin değerini veya kötü niyetli aktörlerin ve çeşitli düşmanların içeri girmek için kapıyı tırmaladığı gerçeğini değiştirmez. Güvenlik, yalnızca doğru ayarları seçmek veya yazılımınızı güncel tutmak değildir — tabii ki temeller de önemlidir. Bu, ironik bir şekilde, artık yapay zekanın kendisi tarafından güçlendirilen, hiç bitmeyen bir kedi-fare oyunudur: ajanlar ve saldırı otomatları, bu şirketlerin saldırı yüzeylerinin her bir köşesini ve bucağını araştırıyor.
Paniklemeye gerek yok; çok sayıda kişisel veya ticari açıdan değerli veriye erişimi olan şirketler yıllardır benzer risklerle karşı karşıya kaldı ve bunları yönetti. Ancak AI şirketleri, bahçenizdeki kötü yapılandırılmış kurumsal sunucudan veya sorumsuz veri aracısından daha yeni, daha genç ve potansiyel olarak daha cazip bir hedef temsil ediyor. Yukarıda bildirilen ve bildiğimiz kadarıyla ciddi bir sızdırma olmayan bir saldırı bile, AI şirketleriyle iş yapan herkesi endişelendirmeli. Hedefleri sırtlarına boyadılar. Herkes veya herkes bir atış yaptığında şaşırmayın.