Artık hemen hemen her endüstri ve şirkette önemli bir teknoloji olan makine öğrenimi ve yapay zeka alanındaki araştırmalar, herkesin hepsini okuması için çok hacimlidir. Perceptron adlı bu sütun, özellikle yapay zeka konusunda, ancak bununla sınırlı olmamak üzere, en güncel keşiflerden ve makalelerden bazılarını toplamayı ve neden önemli olduklarını açıklamayı amaçlıyor.

Geçtiğimiz birkaç hafta içinde, Google’daki araştırmacılar bir AI sisteminin demosunu yaptı, PALI, bu, 100’den fazla dilde birçok görevi gerçekleştirebilir. Başka bir yerde, Berlin merkezli bir grup adı verilen bir proje başlattı. Kaynak+ bu, görsel sanatçılar, müzisyenler ve yazarlar da dahil olmak üzere sanatçıların, çalışmalarının AI için eğitim verileri olarak kullanılmasına izin vermesini ve devre dışı bırakmasını sağlamanın bir yolu olarak tasarlanmıştır.

OpenAI’nin GPT-3’ü gibi yapay zeka sistemleri, oldukça mantıklı metinler üretebilir veya web’den, e-kitaplardan ve diğer bilgi kaynaklarından mevcut metni özetleyebilir. Ancak tarihsel olarak tek bir dille sınırlı kaldılar ve hem kullanışlılıklarını hem de erişimlerini sınırladılar.

Neyse ki, son aylarda, kısmen Hugging Face’s Bloom gibi topluluk çabalarıyla çok dilli sistemlere yönelik araştırmalar hızlandı. Çok dillilikteki bu ilerlemelerden yararlanmak amacıyla bir Google ekibi, resim yazısı, nesne algılama ve optik karakter tanıma gibi görevleri gerçekleştirmek için hem resimler hem de metinler üzerinde eğitilmiş PaLI’yi oluşturdu.

Google PaLI

Resim Kredisi: Google

Google, PaLI’nin 109 dili ve bu dillerdeki kelimeler ile resimler arasındaki ilişkileri anlayabildiğini ve örneğin bir kartpostal resmine Fransızca altyazı yazabilmesini sağladığını iddia ediyor. Çalışma, araştırma aşamalarında sıkı bir şekilde kalırken, yaratıcılar, dil ve görüntüler arasındaki önemli etkileşimi gösterdiğini ve hatta ticari bir ürün için bir temel oluşturabileceğini söylüyorlar.

Konuşma, AI’nın sürekli olarak geliştirdiği dilin başka bir yönüdür. Play.ht, kısa süre önce, sonuçlarına dikkate değer miktarda duygu ve aralık katan yeni bir metinden konuşmaya modelini gösterdi. Geçen hafta yayınladığı klipler Kulağa harika geliyor, elbette kirazlı olsalar da.

Bu makalenin girişini kullanarak kendimize ait bir klip oluşturduk ve sonuçlar hala sağlam:


Bu tür ses üretiminin tam olarak ne için en yararlı olacağı henüz belli değil. Kitapların tamamını yapacakları aşamada değiliz – daha doğrusu yapabilirler, ancak henüz kimsenin ilk tercihi olmayabilir. Ama kalite yükseldikçe uygulamalar çoğalıyor.

Sırasıyla bir akademisyen ve müzisyen olan Mat Dryhurst ve Holly Herndon, Kaynak+’yı başlatmak için Spawning organizasyonuyla ortaklık kurdular. izin istedi. Hiçbir maliyeti olmayan Source+, sanatçıların isterlerse çalışmalarının yapay zeka eğitimi amacıyla kullanılmasına izin vermemelerini sağlamayı amaçlıyor.

Stable Diffusion ve DALL-E 2 gibi görüntü oluşturma sistemleri, metin istemlerinin sanata nasıl çevrileceğini “öğrenmek” için web’den alınan milyarlarca görüntü üzerinde eğitildi. Bu görüntülerin bazıları ArtStation ve DeviantArt gibi kamuya açık sanat topluluklarından geldi – mutlaka sanatçıların bilgisi dahilinde değil – ve sistemlere belirli yaratıcıları taklit etme yeteneği kazandırdı. içermek Greg Rutowski gibi sanatçılar.

Kararlılık AI Kararlı Difüzyon

Kararlı Difüzyondan Örnekler.

Sistemlerin sanat stillerini taklit etme becerisi nedeniyle, bazı yaratıcılar geçim kaynaklarını tehdit edebileceklerinden korkuyor. Dryhurst ve Herndon’a göre Source+ – gönüllü olsa da – sanatçılara sanatlarının nasıl kullanıldığı konusunda daha fazla söz hakkı verme yolunda bir adım olabilir – bunun bir ölçekte benimsendiğini varsayarsak (büyük bir if).

DeepMind’da bir araştırma ekibi teşebbüs AI’nın uzun süredir devam eden sorunlu bir yönünü çözmek için: toksik ve yanıltıcı bilgi yayma eğilimi. Metne odaklanan ekip, Google’ı kullanarak web’de arama yaparak sık sorulan soruları yanıtlayabilen Sparrow adlı bir sohbet robotu geliştirdi. Google’ın LaMDA’sı gibi diğer son teknoloji sistemler de aynı şeyi yapabilir, ancak DeepMind, Sparrow’un sorulara benzerlerinden daha sık akla yatkın, toksik olmayan cevaplar sağladığını iddia ediyor.

İşin püf noktası, sistemi insanların beklentileriyle uyumlu hale getirmekti. DeepMind, Sparrow’u kullanmaları için insanları işe aldı ve ardından yanıtların ne kadar yararlı olduğuna dair bir model eğitmek için geri bildirim sağlamalarını istedi, katılımcılara aynı soruya birden fazla yanıt gösterdi ve onlara en çok hangi yanıtı beğendiklerini sordu. Araştırmacılar ayrıca Sparrow’a “tehdit edici açıklamalarda bulunmayın” ve “nefret dolu veya aşağılayıcı yorumlarda bulunmayın” gibi kurallar tanımladılar.

DeepMind’in serçesinin konuşma örneği.

DeepMind, Sparrow’un iyileştirme için yeri olduğunu kabul ediyor. Ancak bir çalışmada ekip, sohbet robotunun gerçeklere dayalı bir soru sorulduğunda %78 oranında kanıtlarla desteklenen “makul” bir yanıt verdiğini ve yalnızca %8 oranında yukarıda belirtilen kuralları çiğnediğini buldu. Araştırmacılar, kandırıldığında kuralları kabaca üç kat daha sık çiğneyen DeepMind’in orijinal diyalog sisteminden daha iyi olduğunu belirtiyor.

DeepMind’deki ayrı bir ekip, son zamanlarda çok farklı bir alanla uğraştı: AI’nın hızlı bir şekilde ustalaşması için tarihsel olarak zor olan video oyunları. Onların sistemi, arsızca denir MEMEbildirildiğine göre, 57 farklı Atari oyununda önceki en iyi sistemden 200 kat daha hızlı “insan düzeyinde” performans elde etti.

DeepMind’in MEME’yi detaylandıran makalesine göre, sistem, hareket izlenimi vermek için çok hızlı bir şekilde yenilenen hareketsiz görüntülere atıfta bulunan yaklaşık 390 milyon kareyi – “kareleri” gözlemleyerek oyun oynamayı öğrenebilir. Bu kulağa çok gibi gelebilir, ancak önceki son teknoloji teknik 80 gerektiriyordu. milyar aynı sayıda Atari oyununda kareler.

DeepMind MEME

Resim Kredisi: Derin Düşünce

Atari’yi ustaca oynamak arzu edilen bir beceri gibi gelmeyebilir. Ve gerçekten, bazıları eleştirmenler Tartışma oyunları, soyutlukları ve göreceli basitlikleri nedeniyle kusurlu bir AI kriteridir. Ancak DeepMind gibi araştırma laboratuvarları, bu yaklaşımların, videoları izleyerek veya kendi kendini geliştiren, kendi kendine giden arabaları izleyerek görevleri yerine getirmeyi daha verimli bir şekilde öğrenen robotlar gibi gelecekte diğer daha faydalı alanlara uygulanabileceğine inanıyor.

Nvidia, 20’sinde, aralarında birkaç ilginç AI çabasının da bulunduğu düzinelerce ürün ve hizmeti açıklayan bir saha günü geçirdi. Kendi kendini süren arabalar, hem AI’yı güçlendiren hem de onu eğiten şirketin odak noktalarından biridir. İkincisi için simülatörler çok önemlidir ve aynı şekilde sanal yolların gerçek yollara benzemesi de önemlidir. bir tarif ederler yeni, geliştirilmiş içerik akışı gerçek arabalardaki kameralar ve sensörler tarafından toplanan verileri dijital ortama taşımayı hızlandıran bir sistem.

Gerçek dünya verileri üzerine kurulmuş bir simülasyon ortamı.

Gerçek dünyadaki araçlar ve yoldaki düzensizlikler veya ağaç örtüsü gibi şeyler doğru bir şekilde yeniden üretilebilir, bu nedenle kendi kendini süren AI, sokağın sterilize edilmiş bir versiyonunda öğrenmez. Ve genel olarak daha büyük ve daha değişken simülasyon ayarları oluşturmayı mümkün kılar, bu da sağlamlığa yardımcı olur. (Başka bir resmi üstte.)

Nvidia ayrıca IGX sistemini tanıttı. endüstriyel durumlarda otonom platformlar — bir fabrika katında bulabileceğiniz gibi insan-makine işbirliği. Elbette bunlardan herhangi bir eksiklik yok, ancak görevlerin ve işletim ortamlarının karmaşıklığı arttıkça, eski yöntemler artık bunu kesmiyor ve otomasyonlarını geliştirmek isteyen şirketler geleceğe hazır olmaya bakıyor.

Bir fabrika katındaki nesneleri ve insanları sınıflandıran bilgisayarlı görü örneği.

“Proaktif” ve “öngörücü” güvenlik, IGX’in yardımcı olmayı amaçladığı şeydir, yani güvenlik sorunlarını kesintilere veya yaralanmalara neden olmadan önce yakalamaktır. Bir botun kendi acil durdurma mekanizması olabilir, ancak alanı izleyen bir kamera, bir forklift yoluna çıkmadan önce yönünü değiştirmesini söyleyebilirse, her şey biraz daha düzgün gider. Tam olarak hangi şirket veya yazılımın bunu başardığı (ve hangi donanım üzerinde ve bunların nasıl ödendiği) hala devam eden bir çalışmadır, Nvidia ve Veo Robotics gibi yeni başlayanlar gibi.

Nvidia’nın oyun alanında bir başka ilginç adım daha atıldı. Şirketin en yeni ve en iyi GPU’ları, yalnızca üçgenleri ve gölgelendiricileri zorlamak için değil, aynı zamanda çerçeveleri büyütmek ve eklemek için kendi DLSS teknolojisi gibi yapay zeka destekli görevleri hızlı bir şekilde gerçekleştirmek için üretilmiştir.

Çözmeye çalıştıkları sorun, oyun motorlarının o kadar talepkar olması ki, (en yeni monitörlere ayak uydurmak için) saniyede 120 kareden daha fazlasını üretirken, görsel doğruluğu korurken, güçlü GPU’ların bile zar zor yapabileceği Herkül bir görevdir. Ancak DLSS, kaynak çerçevenin çözünürlüğünü takma veya yapaylık olmadan artırabilen akıllı bir çerçeve karıştırıcısı gibidir, bu nedenle oyunun çok fazla pikseli zorlaması gerekmez.

DLSS 3’te Nvidia, 1:1 oranında tüm ek kareleri oluşturabileceğini iddia ediyor, böylece 60 kareyi doğal olarak ve diğer 60 kareyi AI aracılığıyla oluşturabilirsiniz. Yüksek performanslı bir oyun ortamında işleri garipleştirebilecek birkaç neden düşünebilirim, ancak Nvidia muhtemelen bunların farkındadır. Her halükarda, yalnızca RTX 40 serisi kartlarda çalışacağından, yeni sistemi kullanma ayrıcalığı için yaklaşık bin dolar ödemeniz gerekecek. Ancak grafiksel aslına uygunluk en büyük önceliğiniz ise, buna sahip olun.

Uzak bir bölgede inşa edilen dronların illüstrasyonu.

Bugün son şey bir Imperial College London’dan drone tabanlı 3D baskı tekniği derin bir gelecekte otonom bina süreçleri için kullanılabilecek. Şimdilik, bir çöp kutusundan daha büyük bir şey yaratmak için kesinlikle pratik değil, ancak hala erken günler. Sonunda, yukarıdaki gibi yapmayı umuyorlar ve harika görünüyor, ancak beklentilerinizi netleştirmek için aşağıdaki videoyu izleyin.



genel-24