Yapay zeka (AI) büyük dil modeli (LLM) girişimi Lamini’nin kurucu ortağı ve CEO’su, Twitter/X’te bir video yayınladı alay etmek Devam eden Nvidia GPU sıkıntısında. Lamini’nin patronu şu anda oldukça kendini beğenmiş durumda ve bunun büyük ölçüde nedeni firmanın Yüksek Lisansının yalnızca hazır AMD GPU mimarileri üzerinde çalışması gibi görünüyor. Üstelik firma, ROCm kullanan AMD GPU’ların daha önce baskın olan Nvidia CUDA platformuyla “yazılım eşitliğine” ulaştığını iddia ediyor.
Sadece birkaç GPU’yu kızartıyorum 💁🏻♀️Jensen’e ilk önce bunları pişirdiği için teşekkür ederiz https://t.co/4448NNf2JP pic.twitter.com/IV4UqIS7OR26 Eylül 2023
Videoda Lamini CEO’su Sharon Zhou’nun AI Yüksek Lisans hızlandırıcı GPU’ları bulmak için bir fırını kontrol ettiği görülüyor. İlk önce yüzeysel olarak Jensen Huang’ın ünlü Kaliforniya coquina’sına benzeyen bir mutfağa giriyor, ancak fırını kontrol ettiğinde “52 hafta teslim süresi – hazır değil” olduğunu fark ediyor. Hayal kırıklığına uğrayan Zhou, bahçedeki ızgarayı kontrol ediyor ve yeni mangalda pişirilmiş AMD Instinct GPU’nun kullanıma hazır olduğunu görüyor.
Nvidia GPU’ların fırında uzun süre pişirmeye ihtiyaç duymasının, AMD GPU’ların ise ızgarada hazırlanabilmesinin teknik nedenlerini bilmiyoruz. Umarım okuyucularımız bu yarı iletken bilmecesine yorumlarda biraz ışık tutabilirler.
Daha ciddi bir kayda göre, LLM’nin önde gelen girişimi Lamini’ye daha yakından bakarsak, bunların şaka olmadığını görebiliriz. CRN Salı günü Palo Alto, Kaliforniya merkezli startup hakkında bazı arka plan bilgileri sundu. Haberde bahsedilen önemli şeylerden bazıları arasında Lamini CEO’su Sharon Zhou’nun bir makine öğrenimi uzmanı olması ve CTO Greg Diamos’un eski bir Nvidia CUDA yazılım mimarı olması yer alıyor.
Lamini’nin AMD Instinct GPU’larda LLM’leri “gizlice” çalıştırdığı ortaya çıktı geçen yıl içinTest dönemi boyunca çok sayıda işletmenin özel LLM’lerden yararlandığı görüldü. En dikkate değer Lamini müşterisi muhtemelen “Lamini’yi dahili Kubernetes kümemizde AMD Instinct GPU’larla konuşlandıran ve belirli geliştirici görevleri için birden fazla bileşende AMD kod tabanı üzerinde eğitilmiş modeller oluşturmak için ince ayar kullanan” AMD’dir.
Lamini’nin çok ilginç bir temel iddiası, üretime hazır LLM’leri AMD Instinct GPU’larda çalıştırmak için yalnızca “3 satır koda” ihtiyaç duymasıdır. Ek olarak, Lamini’nin hazır AMD GPU’lar üzerinde çalışmanın önemli bir avantajına sahip olduğu söyleniyor. CTO Diamos ayrıca Lamini’nin performansının Nvidia çözümlerinin gölgesinde kalmadığını, zira AMD ROCm’nin Yüksek Lisanslar için Nvidia CUDA ile “yazılım eşitliği” elde ettiğini ileri sürüyor.
AMD donanımını kullanarak Yüksek Lisans çözümleri sağlamaya odaklanan bir şirketten de aynısını bekleriz, ancak bunlar doğası gereği yanlış değildir. AMD Instinct GPU’lar, özellikle de elinizde yeterince varsa, Nvidia A100 ve H100 GPU’larla rekabet edebilir. Örneğin Instinct MI250, yapay zeka iş yükleri için 362 teraflopa kadar en yüksek BF16/FP16 hesaplama olanağı sunarken MI250X bunu 383 teraflopa çıkarıyor. Her ikisinde de 128 GB HBM2e bellek bulunur ve bu, Yüksek Lisans’ı çalıştırmak için kritik olabilir.
AMD’nin yakında çıkacak olan Instinct MI300X’i ise bellek kapasitesini 192 GB’a kadar çıkarıyor; bu, Nvidia’nın Hopper H100’üyle elde edebileceğinizin iki katı. Ancak AMD, MI300’ün bilgi işlem performansını henüz resmi olarak açıklamadı; MI250X’ten daha yüksek olacağı kesin, ancak ne kadar yüksek olacağı tam olarak bilinmiyor.
Karşılaştırma yapmak gerekirse, Nvidia’nın A100’ü 312 teraflopa kadar BF16/FP16 hesaplama veya seyreklikle 624 teraflopluk tepe hesaplama sunuyor – temel olarak seyreklik, yanıt bilindiği üzere sıfır hesaplamayla çarpma işlemini “atlıyor” ve potansiyel olarak verimi iki katına çıkarıyor. H100, seyreklikle 1979 teraflopa kadar BF16/FP16 hesaplamasına sahiptir (ve seyreklik olmadan bunun yarısı kadar). O halde kağıt üzerinde AMD A100’ü geçebilir ancak H100’ün gerisinde kalır. Ancak bu, aslında H100 GPU’ları alabileceğinizi varsayıyor; Lamini’nin belirttiği gibi, şu anda bir yıl veya daha fazla bekleme süresi anlamına geliyor.
Bu arada alternatif, Yüksek Lisans’ları AMD’nin Instinct GPU’larında çalıştırmaktır. Tek bir MI250X, H100’e uygun olmayabilir, ancak optimize edilmiş ROCm kodunu çalıştıran beş tanesinin rekabetçi olduğu kanıtlanmalıdır. Ayrıca LLM’lerin ne kadar belleğe ihtiyaç duyduğu sorusu da var ve belirtildiği gibi 128 GB, 80 GB veya 94 GB’den fazla (çift GPU H100 NVL’yi dahil etmediğiniz sürece mevcut H100’deki maksimum). ChatGPT gibi 800 GB belleğe ihtiyaç duyan bir Yüksek Lisans, potansiyel olarak on veya daha fazla H100 veya A100 GPU’dan veya yedi MI250X GPU’dan oluşan bir kümeye ihtiyaç duyacaktır.
Bu çok doğal AMD ortağı Lamini’nin çözümünün en iyilerini öne çıkaracağı ve duruşunu güçlendirmek için tercih edilen veriler/kıyaslamalar yapacağı gibi. Bununla birlikte, AMD GPU’ların mevcut hazır bulunabilirliği ve kıt olmayan fiyatlandırmanın, kırmızı takımın çiplerinin teraflop başına en iyi fiyatı veya GB GPU belleği başına en iyi fiyatı sunabileceği anlamına geldiği inkar edilemez.