Salı günü bir canlı yayın sırasında, Openai CEO’su Sam Altman, ChatGPT’nin görüntü nesil yeteneklerine bir yıldan fazla bir sürede ilk büyük yükseltmeyi duyurdu.
ChatGPT artık görüntüleri ve fotoğrafları doğal olarak oluşturmak ve değiştirmek için şirketin GPT-4O modelinden yararlanabilir. GPT-4O uzun zamandır yapay zeka ile çalışan chatbot platformunu destekledi, ancak şimdiye kadar model sadece metin oluşturabilir ve düzenleyebildi-resimler değil.
Altman, GPT-4O yerel görüntü üretiminin bugün CHATGPT ve Openai’nin AI video nesil ürünü Sora’da, şirketin ayda 200 $ ‘lık Pro planına aboneler için canlı olduğunu söyledi. Openai, özelliğin yakında artı ve ücretsiz ChatGPT kullanıcılarının yanı sıra şirketin API hizmetini kullanan geliştiricilere yayıldığını söylüyor.
Görüntü çıkışlı GPT-4O, Openai’nin daha doğru ve ayrıntılı görüntüler olarak tanımladığı şeyi yapmak için etkili bir şekilde yerini aldığı görüntü oluşturma modelinden biraz daha uzun “düşünür”. GPT-4O, içlerindeki insanlarla görüntüler de dahil olmak üzere mevcut görüntüleri düzenleyebilir-bunları dönüştürür veya ön plan ve arka plan nesneleri gibi ayrıntıları “bastırır”.
Yeni görüntü özelliğine güç vermek için Openai, Wall Street Journal GPT-4O’yu “halka açık veriler” ve Shutterstock gibi şirketlerle ortaklıklarından tescilli verileri eğitti.
Birçok üretken AI satıcısı eğitim verilerini rekabet avantajı olarak görür, bu nedenle onu ve onunla ilgili bilgileri göğsüne yakın tutarlar. Ancak eğitim veri detayları aynı zamanda şirketlerin çok fazla açıklaması için bir başka caydırıcı olan IP ile ilgili davaların potansiyel bir kaynağıdır.
Openai’nin baş işletme görevlisi Brad Lightcap, dergiye yaptığı açıklamada, “Sanatçıların haklarına çıktıyı nasıl yaptığımız konusunda saygı duyuyoruz ve herhangi bir canlı sanatçının işini doğrudan taklit eden görüntüler üretmemizi engelleyen politikalarımız var” dedi.
Openai, içerik oluşturucuların çalışmalarının eğitim veri kümelerinden kaldırılmasını istemesini sağlayan bir devre dışı bırakma formu sunar. Şirket ayrıca, web-craping botlarının web sitelerinden görüntüler de dahil olmak üzere eğitim verileri toplamaya izin vermeme isteklerine saygı duyduğunu söylüyor.
Chatgpt’in yükseltilmiş görüntü nesil özelliği, Google’ın şirketin amiral gemisi modellerinden biri olan Gemini 2.0 Flash için deneysel yerel görüntü çıktısının topuklarını takip ediyor. Güçlü özellik sosyal medyada viral hale geldi – ancak en iyi nedenlerden dolayı mutlaka değil. Gemini 2.0 Flash’ın görüntü bileşeni, insanların filigranları çıkarmasına ve telif hakkıyla korunan karakterleri tasvir eden görüntüler oluşturmasına izin veren az sayıda korkuluk olduğu ortaya çıktı.
Bu makale, Openai’nin GPT-4O’nun eğitim verileri çevresindeki Wall Street Journal’a yaptığı açıklamayı dahil etmek için saat 12: 00’de güncellendi.

