Tachyum, Hot Chips 18’de Prodigy Evrensel İşlemci konseptini tanıttığında, dinamik bir ikili çevirici kullanarak herhangi bir kodu çalıştırmak için tasarlanmış bir çip ile oldukça ses getirdi. Hem yerel hem de çevrilmiş kodu yürütürken yüksek performans gösterdi. Şirketin gerçek donanımı tasarlaması biraz zaman aldı. değerlendirme kitleri için ön sipariş almak (yeni sekmede açılır); şirket ayrıca Prodigy’nin tam özelliklerini de açıklar. Kesinlikle etkileyici görünüyorlar, ancak çip başına 950W termal tasarım gücüyle de korkutucular.
Müthiş Güçte Müthiş Performans
Her Tachyum Prodigy işlemci, 7200 MT/s’ye kadar veri aktarım hızını destekleyen (ve dolayısıyla 921.6 GBps’ye kadar bant genişliği sağlayan) 16 DDR5 bellek kanalıyla (1.024 bit arabirim için) eşleştirilmiş 128’e kadar tescilli çekirdeğe ve 64 PCIe’ye sahiptir. 5.0 şerit. Ek olarak, çip toplamda 8 TB’a kadar DDR5 belleği destekler; bu, diğer üreticilerin gelecek sunucu CPU’larında göreceğimiz ile uyumludur. Saat hızlarına gelince, Tachyum’s Prodigy, 5,7 GHz’e kadar çalışacak şekilde tasarlanmıştır ve TSMC’nin performans açısından optimize edilmiş N5P işlem teknolojisinin bir ürünüdür.

Performans söz konusu olduğunda, Tachyum amiral gemisini bekliyor Prodigy T16128-AIX işlemci (yeni sekmede açılır) HPC için 90 adede kadar FP64 TFLOPS ve muhtemelen yerel kod çalıştırırken ve 950 W’a kadar (ve sıvı soğutma kullanırken) çıkarım ve eğitim için 12 adede kadar ‘AI PetaFLOPS’ sunmak için, spesifikasyonlara göre yayınlanan (yeni sekmede açılır) şirket tarafından ve Golem.de (yeni sekmede açılır). Bu arada Tachyum’un Prodigy işlemcileri 2 yönlü ve 4 yönlü konfigürasyonlarda çalışabilir. Rakamları bağlama oturtmak gerekirse, AMD’nin Instinct MI250X’i, yaklaşık 560W’ta HPC için 96 FP64 TFLOPS’luk bir tepe verimine sahiptir. Buna karşılık, Nvidia’nın H100 SXM5’i, 700 W’ta AI için 20 adede kadar INT8/FP8 PetaOPS/PetaFLOP (seyreklik ile 40 PetaOPS/PetaFLOPS) sağlayabilir. Ancak, genel amaçlı iş yükleri için hesaplama GPU’ları da işlev görmez. Ve işte tam da o zaman ilginçleşiyor.
Yeni Bir CPU Doğuyor
Tachyum’s Prodigy, çekirdek başına iki 1024 bit vektör birimi ve çekirdek başına bir 4096 bit matris birimi içeren 128 tescilli 64 bit VLIW çekirdeğini paketleyen evrensel homojen bir işlemcidir. Ayrıca her çekirdekte 64KB talimat önbelleği, 64KB veri önbelleği, 1MB L2 önbellek bulunur ve diğer çekirdeklerin kullanılmayan L2 önbelleklerini kurban L3 önbelleği olarak kullanabilir.

Tachuym’un CEO’su ve kurucu ortağı Radoslav Danilak’a göre, Tachyum’un VLIW çekirdekleri sıralı çekirdekler, ancak derleyiciler uygun optimizasyonlar yaptığında 4 yollu sıra dışı sorunları destekleyebilirler. Golem.de (yeni sekmede açılır). Ayrıca, Prodigy komut seti mimarisinin, sözde zehirli bitleri kullanan yazılımlarla çok yüksek bir talimat düzeyinde paralellik elde edebileceğini yeniden vurguladı.
Bu çekirdekler, şirkete göre, yazılım öykünmesi kullanan ve performans düşüşü olmadan Prodigy (VLIW mimarisinin parlamayı vaat ettiği) yanı sıra x86, Arm ve RISC-V ikili dosyaları için yazılmış ve açıkça optimize edilmiş yerel kod çalıştırıyor. Tarihsel olarak, VLIW işlemcilerinin x86 kodunu çalıştırması için yapılan tüm girişimler (örneğin, Transmeta’nın Crusoe’su, Intel’in Itanium’u) temel olarak belirli CPU mimarileri ve öykünme verimsizlikleri nedeniyle başarısız olmuştur. Tachyum’un başkanı, Qemu ikili çevirisinin performansı %30 ila %40 (herhangi bir temel açıklama yapmadan) düşürdüğünü kabul ediyor, ancak gerçek dünya performansının rekabet edebilecek kadar yüksek olacağını umuyor. Bu arada, bazı programlar zaten yerel olarak desteklenmektedir.
“GCC ve Linux’u yerel olarak destekliyoruz ve FreeBSD artık [on Prodigy],” dedi Danilak. “Apache, MongoDB veya Python zaten yerel olarak çalışıyor, Pytorch ve Tensorflow çerçeveleri de mevcut.”
Tachyum, Prodigy’nin bir hızlandırıcı değil, AMD, Intel ve diğerlerine karşı rekabet edecek gerçek bir CPU olduğunu vurguluyor. İşlemcinin genel amaçlı ve yapay zeka iş yüklerinde rekabetçi performans sunabilmesini sağlamak için şirket, 2018’deki ilk tanıtımından bu yana tasarım uygulamasında çok sayıda değişiklik yaptı.
Danilak, “Biz bir AI hızlandırıcı şirketi değil, CPU’nun yerini alan bir şirketiz, bulut/hiperscaler’leri ve telekomları hedefliyoruz” dedi. “Zaman içinde bazı süper bilgisayar müşterileri kazanmayı planlıyoruz, bu nedenle vektör/MAC birimlerinin genişliğini 512 bitten 1.024 bite ikiye katladık. [which also brings in necessary data paths for the 4,096-bit matrix operations for artificial intelligence]”
Gerçekten de, Tachyum’s Prodigy’nin vaat ettiği belirli bir avantaj, farklı türde bir kod yürütme yeteneğidir. Genel amaçlı iş yüklerini (örnekleri) yürütürken yeterli güçte iyi performans sağlayabileceğini varsayarsak, aynı makineleri AI, HPC için kullanabileceklerinden AWS, Microsoft Azure ve benzerlerine biraz ek esneklik sağlayabilir, ve gerekirse genel amaçlı örnekler. Elbette, farklı taraflardan bazı gerçek yazılım çalışmaları gerektirecektir, ancak bu, en azından teoride işe yarayabilir.
Hala Burada Değil
Tachyum’da hala Prodigy silikon bulunmadığı belirtilmelidir. Sonuç olarak, tüm performans projeksiyonları simülasyonların bir ürünüdür ve şirketin şu anda sahip olduğu tek şey işlemcisinin bir FPGA prototipidir.

Bu arada, şirket son zamanlarda başlamak bazı Prodigy silikonlarında kullanılacak olan Tachyum’un Prodigy Değerlendirme Platformunda ön sipariş almak. Şirketler 31 Temmuz 2022’den önce sipariş vermelidir ve gerçek donanımın teslimatı ‘siparişin alınmasından altı ila dokuz ay sonra’ olacaktır.
Tachyum, her şey planlandığı gibi giderse Ağustos ortasında ilk Prodigy silikonunu (500 mm^2’den küçük olabilir) bantlamayı planlıyor. Bundan sonra şirket, çipinin ilk örneklerini Aralık ayı civarında almayı umuyor ve çip uygun şekilde çalışırsa, şirket örneklemeye başlamayı (yani değerlendirme kitleri göndermeyi) planlıyor. Tipik olarak, silikonun ortaya çıkması, ilk çipin fabrikadan geri dönmesinden yaklaşık bir yıl sonra sürer. Yine de Tachyum, ilk işlemcisinin planlandığı gibi çalışacağını ve 2023’ün ilk yarısında gerçek seri üretime geçebileceğini umuyor.
Gelecekte Danilak, TSMC’nin N3 düğümlerinden biri kullanılarak yapılan ve PCIe Gen6 desteğiyle birlikte aynı güçte iki kat daha yüksek performans sağlayacak bir Prodigy 2 işlemci tasarlıyor.

