Merhaba arkadaşlar, TechCrunch’ın düzenli AI bültenine hoş geldiniz. Bunun her Çarşamba gelen kutunuzda olmasını istiyorsanız buradan kaydolun.
Yapay zekada bu hafta sentetik veriler ön plana çıktı.
OpenAI geçen perşembe günü, yapay zeka destekli sohbet robotu platformu ChatGPT ile etkileşim kurmanın yeni bir yolu olan Canvas’ı tanıttı. Canvas, proje yazmak ve kodlamak için bir çalışma alanı içeren bir pencere açar. Kullanıcılar Canvas’ta metin veya kod oluşturabilir, ardından gerekirse ChatGPT’yi kullanarak düzenlenecek bölümleri vurgulayabilir.
Kullanıcı açısından bakıldığında Canvas, yaşam kalitesinde büyük bir gelişmedir. Ama ne en Bize göre bu özellik hakkında ilginç olan şey, ona güç veren ince ayarlı modeldir. OpenAI, Canvas’ta “yeni kullanıcı etkileşimlerini mümkün kılmak” için GPT-4o modelini sentetik veriler kullanarak uyarladığını söylüyor.
ChatGPT ürün başkanı Nick Turley, “GPT-4o’da açık tuvale ince ayar yapmak, hedefe yönelik düzenlemeler yapmak ve satır içi yüksek kaliteli yorumlar bırakmak için OpenAI’nin o1 önizlemesinden elde edilen çıktıları ayrıştırmak gibi yeni sentetik veri oluşturma teknikleri kullandık” dedi. bir şekilde yazdı X’te yayınla. “Bu yaklaşım, insan tarafından oluşturulan verilere güvenmeden modeli hızlı bir şekilde geliştirmemize ve yeni kullanıcı etkileşimlerini etkinleştirmemize olanak sağladı.”
OpenAI, modellerini eğitmek için sentetik verilere giderek daha fazla güvenen tek Büyük Teknoloji şirketi değil.
Meta, video klipler oluşturmaya ve düzenlemeye yönelik yapay zeka destekli araçlardan oluşan bir paket olan Movie Gen’i geliştirirken kısmen Llama 3 modellerinin bir yan ürünü tarafından oluşturulan sentetik altyazılardan yararlandı. Şirket, bu altyazılardaki hataları düzeltmek ve daha fazla ayrıntı eklemek için insan açıklamacılardan oluşan bir ekip görevlendirdi, ancak temel çalışmanın büyük kısmı büyük ölçüde otomatikleştirildi.
OpenAI CEO’su Sam Altman, yapay zekanın bir gün Kendini etkili bir şekilde eğitebilecek kadar iyi sentetik veriler üretir. Bu, insan açıklamacılara ve veri lisanslarına servet harcayan OpenAI gibi firmalar için avantajlı olacaktır.
Meta, sentetik verileri kullanarak Llama 3 modellerine ince ayar yaptı. OpenAI’nin Orion kod adlı yeni nesil modeli için sentetik eğitim verilerini o1’den sağladığı söyleniyor.
Ancak sentetik veri öncelikli bir yaklaşımı benimsemek riskleri de beraberinde getiriyor. Geçenlerde bir araştırmacının bana belirttiği gibi, sentetik veri üretmek için kullanılan modeller kaçınılmaz olarak halüsinasyon görüyor (yani bir şeyler uyduruyor) ve önyargılar ve sınırlamalar içeriyor. Bu kusurlar, modellerin oluşturulan verilerinde kendini gösterir.
O halde sentetik verileri güvenli bir şekilde kullanmak, insan tarafından oluşturulan verilerde standart uygulama olduğu gibi, bunların kapsamlı bir şekilde düzenlenmesini ve filtrelenmesini gerektirir. Bunu yapmamak modelin çökmesine yol açmakbir model çıktılarında daha az “yaratıcı” ve daha önyargılı hale gelir ve sonunda işlevselliğinden ciddi şekilde ödün verir.
Bu ölçekte kolay bir iş değil. Ancak gerçek dünyadaki eğitim verilerinin ortaya çıkmasıyla birlikte daha pahalı (elde etmenin zorluğundan bahsetmiyorum bile), AI satıcıları sentetik verileri ileriye yönelik tek geçerli yol olarak görebilir. Umarız bunu benimserken dikkatli davranırlar.
Haberler
AI’daki Reklamlara Genel Bakış: Google, yakında belirli Google Arama sorguları için sağladığı AI tarafından oluşturulan özetler olan AI Genel Bakışlarında reklam göstermeye başlayacağını söylüyor.
Google Lens artık videolu: Google’ın görsel arama uygulaması Lens, çevrenizle ilgili neredeyse gerçek zamanlı soruları yanıtlama özelliğiyle geliştirildi. Lens aracılığıyla video çekebilir ve videoda ilginizi çeken nesneler hakkında sorular sorabilirsiniz. (Reklamlar muhtemelen bunun için de geliyor.)
Sora’dan DeepMind’a: OpenAI’nin video oluşturucusu Sora’nın liderlerinden biri olan Tim Brooks, rakibi Google DeepMind’a geçti. Brooks, X’teki bir gönderisinde video oluşturma teknolojileri ve “dünya simülatörleri” üzerinde çalışacağını duyurdu.
Akışkanlaştırıyorum: xAI’nin Grok asistanının görüntü oluşturma bileşeninin arkasındaki Andreessen Horowitz destekli girişim olan Black Forest Labs, beta sürümünde bir API başlattı ve yeni bir model yayınladı.
O kadar şeffaf değil: Kaliforniya’nın yakın zamanda kabul ettiği AB-2013 yasa tasarısı, üretken yapay zeka sistemleri geliştiren şirketlerin, sistemlerini eğitmek için kullandıkları verilerin üst düzey bir özetini yayınlamasını gerektiriyor. Şu ana kadar çok az şirket buna uyup uymayacağını söylemeye istekli. Kanun onlara Ocak 2026’ya kadar süre veriyor.
Haftanın araştırma makalesi

Apple araştırmacıları yıllardır bilgisayarlı fotoğrafçılık üzerinde yoğun bir şekilde çalışıyor ve bu sürecin önemli bir yönü de derinlik haritalaması. Başlangıçta bu, stereoskopiyle veya lidar ünitesi gibi özel bir derinlik sensörüyle yapılıyordu, ancak bunlar genellikle pahalı, karmaşık oluyor ve değerli dahili gayrimenkulleri kaplıyor. Bunu kesinlikle yazılımla yapmak birçok açıdan tercih edilir. Depth Pro adlı bu makalenin konusu budur.
Aleksei Bochkovskii ve ark. bir yöntem paylaş yüksek ayrıntıya sahip sıfır atışlı monoküler derinlik tahmini için; bu, tek bir kamera kullandığı, belirli konularda eğitim almasına gerek olmadığı (hiç görmemesine rağmen bir deve üzerinde çalıştığı gibi) ve saç tutamları gibi zor yönleri bile yakaladığı anlamına gelir . Şu anda iPhone’larda neredeyse kesinlikle kullanılıyor (gerçi muhtemelen geliştirilmiş, özel oluşturulmuş bir sürüm), ancak kullanarak kendi derinlik tahmininizi yapmak istiyorsanız bunu deneyebilirsiniz. bu GitHub sayfasındaki kod.
Haftanın modeli
Google, Gemini ailesinde en performanslı modellerden biri olduğunu iddia ettiği Gemini 1.5 Flash-8B adlı yeni bir modeli piyasaya sürdü.
Gemini 1.5 Flash’ın hız ve verimlilik açısından zaten optimize edilmiş “damıtılmış” bir versiyonu olan Gemini 1.5 Flash-8B’nin kullanım maliyeti %50 daha düşüktür, gecikme süresi daha düşüktür ve Google’ın yapay zeka odaklı AI Studio’sunda 2 kat daha yüksek hız limitleriyle birlikte gelir geliştirici ortamı.
Google, “Flash-8B, birçok kıyaslamada Mayıs ayında piyasaya sürülen 1.5 Flash modelinin performansına neredeyse eşleşiyor” diye yazıyor. blog yazısı. “Modellerimiz [continue] geliştirici geri bildirimleri ve nelerin mümkün olduğuna dair kendi testlerimiz aracılığıyla bilgilendirilmek.”
Google, Gemini 1.5 Flash-8B’nin sohbet, transkripsiyon ve çeviri için veya “basit” ve “yüksek hacimli” diğer herhangi bir görev için çok uygun olduğunu söylüyor. Model, AI Studio’ya ek olarak, dakikada 4.000 istekle sınırlı hıza sahip Google’ın Gemini API’si aracılığıyla da ücretsiz olarak sunuluyor.
Çantayı al
Ucuz yapay zekadan bahsetmişken Anthropic, geliştiricilerin daha az parayla büyük miktarda yapay zeka modeli sorgusunu eşzamansız olarak işlemesine olanak tanıyan yeni bir özellik olan Mesaj Batches API’sini yayınladı.
Google’ın Gemini API’sine yönelik toplu işlem isteklerine benzer şekilde, Anthropic’in Mesaj Toplu İşlemleri API’sini kullanan geliştiriciler, toplu iş başına belirli bir boyuta (10.000 sorgu) kadar toplu gruplar gönderebilir. Her toplu iş 24 saatlik bir süre içinde işlenir ve standart API çağrılarından %50 daha düşük maliyetlidir.
Anthropic, Mesaj Toplu İşlemleri API’sinin veri kümesi analizi, büyük veri kümelerinin sınıflandırılması ve model değerlendirmeleri gibi “büyük ölçekli” görevler için ideal olduğunu söylüyor. Şirket şöyle yazıyor: “Örneğin” postalamak“Milyonlarca dosya içerebilecek kurumsal belge havuzlarının tamamını analiz etmek, [this] toplu indirim.”
Mesaj Grupları API’si, Anthropic’in Claude 3.5 Sonnet, Claude 3 Opus ve Claude 3 Haiku modellerini destekleyen genel beta sürümünde mevcuttur.

