Yerel LLM kullanımı artıyor ve bunları çalıştırmak için birçok PC veya sistem kurarak, bulutta bir sunucuda bir sunucuda çalıştırma fikri hızla modası geçiyor.
Binh Pham, bir Raspberry Pi sıfırını denedi ve cihazı etkili bir şekilde, ekstralara gerek kalmadan yerel olarak çalıştırabilen küçük bir USB sürücüsüne dönüştürdü. Proje, bir talimat seti ve çevrimdışı hafif bir chatbot deneyimi sunmak için tasarlanmış bir dizi paketin birleşimi olan Lama.cpp ve LamaFile sayesinde büyük ölçüde kolaylaştırıldı.
Ancak, Pi Zero’nun sekiz yaşında olması nedeniyle, Lama.cpp’i Pi Zero’ya paketlemek ve koşmasını sağlamak kadar basit değildi. İlk olarak, Pham cihazı bir USB arayüzüne monte etti ve 3D cihazın kendisi için bir kabuk yazdırdı.
Tüm bunlar ele alındığında, proje Pi Zero W’nin 512MB RAM depolama sınırlaması nedeniyle daha fazla karmaşıklık topladı. Lama.cpp’i cihaza inşa ettikten sonra, derleyemedi ve hiç kimse pi sıfıra veya Pi birine lama.cpp inşa etmeye cesaret edemedi.
Sorunların kökü, ARMV6’da çalışan Pi Zero’nun CPU’suna indi. Bunu aşmak için, Lama.cpp’in ARMV8 talimat setini parçalamak ve dönüştürmek ve modern donanıma dayalı gösterimleri veya optimizasyonları kaldırmak zorunda kaldı.

Pi Zero’da işlerin çalışmasını sağlamak için Lama.cpp kaynak kodunu düzenledikten sonra, çubuğun yazılım tarafını çalıştırması gerekiyordu. Sonra dikkati, yazılım deneyimini olabildiğince sorunsuz hale getirmeye yöneldi.
LLM’nin kendisi, ana istem olarak hizmet veren LLM’ye metin dosyaları göndermek üzerine inşa edilmiştir. Böylece Pham, metin istemine dayalı bir hikaye oluşturan ve oluşturulan çıkışlara sahip tamamen doldurulmuş bir dosya olarak tüküren uygulamasını oluşturdu.
Token sınırları 64’e ayarlanmış olarak, 15m ila 136m arasında değişen birkaç modelle birkaç ölçüt aldı. Tiny15m modeli, başlık başına 223ms hıza ulaşırken, iki büyük lamini-T5-Flan-77M modeli, daha uzun bir eğik hıza ulaştı ve SMOLLM2-136M modeli, 2,2-be-beaden-be-beaden-seated’a ulaştı.
Jeton hızları gerçekten birçok pratik uygulamada kullanılmanın çok yavaş olacağı anlamına geliyor. İlginç bir proje olsa da, yerel bir LLM çalıştırmak için eski, hafif donanım kullanmak çok pratik bir kullanım sunmayabilir. Bunun yerine, bir Raspberry Pi 5’te Deepseek’i çalıştırmak gibi çok daha karmaşık bir model kullanmak isteyebilirsiniz.

