Yandex ekibi yeni nesil görsel sinir ağı olan YandexART 2.0’ı sundu. Basın servisinin bildirdiği gibi model, kullanıcı isteklerini daha iyi anlamayı ve daha fazla ayrıntıyı dikkate almayı öğrendi. Ayrıca farklı stilleri tek bir görselde birleştirebilir, logolar oluşturabilir ve görsellere Latince metin ekleyebilir.
Yandex’in açıklaması şu şekilde:
Kullanıcılar işlerini geliştirmek için yeni özellikleri kullanabilirler; örneğin: bir marka için logo, ürün etiketi, bir web sitesi ve sosyal medya gönderileri için resimler ve reklam ve pazarlama kampanyalarının etkinliğini artırmak için şirketler oluşturmak.
YandexART 2.0, şirketin kendi geliştirmesine dayanmaktadır – evrişimli ve transformatör sinir ağlarının çalışma kalitesini birleştiren yeni bir hibrit model mimarisi. Evrişimli model, insan gözü prensibine göre çalışır ve resimdeki önemli özellikleri (kenarlar, dokular ve şekiller) tanımlar. Aynı zamanda, böyle bir mimariye sahip bir sinir ağı, uzun bağlamı hesaba katamaz (bu nedenle açıklamalardaki çok sayıda ayrıntıyla baş etmesi zordur), ancak bir transformatör bunu yapabilir. Bu iki modelin YandexART 2.0’da birleştirilmesi, metin sorgularının daha doğru bir şekilde takip edilmesini sağladı.
YandexART, onlar için yüz milyonlarca çift resim ve metin açıklamasıyla eğitildi. Bu metinlerin kalitesini artırmak ve daha doğru hale getirmek için Yandex kendi VLM modelini kullandı. Görüntüleri analiz etti ve içlerinde ne olduğunu ayrıntılı olarak anlattı. YandexART 2.0, sinir ağının kullanıcının isteğine ilişkin daha fazla ayrıntıyı dikkate almasına yardımcı olan iyileştirilmiş veriler üzerinde eğitildi.


