NVIDIA, Meta’nın Llama 3 LLM’lerinin NVIDIA GPU’ları ile oluşturulduğunu ve sunuculardan PC’lere kadar tüm platformlarda çalışacak şekilde optimize edildiğini duyurdu
Meta’nın Yeni Nesil Llama 3 Yapay Zeka LLM’leri Burada ve Arkasındaki Güç NVIDIA
NVIDIA bugün, büyük dil modelinin (LLM) en son nesli olan Meta Llama 3’ü hızlandırmak için tüm platformlarında optimizasyonlar yaptığını duyurdu. NVIDIA accelerated computing ile bir araya getirilen açık model, geliştiricileri araştırmacıları ve işletmeleri çok çeşitli uygulamalarda sorumlu bir şekilde yenilik yapmaları için donatıyor.
NVIDIA AI İle Eğitildi
Meta mühendisleri Llama 3’ü, Quantum-2 InfiniBand ağıyla bağlantılı 24.576 H100 Tensor Core GPU içeren bir bilgisayar kümesinde eğitti. NVIDIA’nın desteğiyle Meta, amiral gemisi LLM için ağını, yazılımını ve model mimarilerini ayarladı.
Meta, üretken yapay zeka alanındaki son teknolojiyi daha da ileriye taşımak için kısa süre önce altyapısını 350.000 H100 GPU’ya yükseltme planlarını açıkladı.
Lama 3’ü İşe Koymak
Llama 3’ün NVIDIA GPU’larda hızlandırılmış sürümleri bulutta, veri merkezinde ve PC’de kullanılmak üzere bugün kullanıma sunuldu.
İşletmeler, güvenli ve desteklenen NVIDIA AI Enterprise platformunun bir parçası olan LLM’ler için açık kaynaklı bir framework olan NVIDIA NeMo’yu kullanarak verileriyle Llama 3’e ince ayar yapabilir. Özel modeller NVIDIA TensorRT-LLM ile çıktı almak için optimize edilebilir ve Triton Inference Server ile dağıtılabilir.
Llama 3’ü Cihazlara ve Bilgisayarlara Taşıma
Llama 3 ayrıca robotik ve uç bilişim cihazları için Jetson Orin üzerinde çalışarak Jetson AI Lab’deki gibi etkileşimli ajanlar oluşturur. Dahası, iş istasyonları ve bilgisayarlar için RTX ve GeForce RTX GPU’lar Llama 3’te çıkarımı hızlandırıyor. Bu sistemler, geliştiricilere dünya çapında 100 milyondan fazla NVIDIA hızlandırmalı sistem hedefi veriyor.
Llama 3 ile Optimum Performans Elde Edin
Bir sohbet botu için LLM kullanımında en iyi yöntem düşük gecikme süresi, iyi okuma hızı ve maliyetleri düşürmek için optimum GPU kullanımı dengesini içerir. Böyle bir hizmetin, bir LLM’e kelimelerin kabaca eşdeğeri olan belirteçleri, bir kullanıcının okuma hızının yaklaşık iki katı olan yaklaşık 10 token/saniye hızında sunması gerekir.
Bu ölçütler uygulandığında, tek bir NVIDIA H200 Tensor Core GPU, 70 milyar parametreli Llama 3 sürümünün kullanıldığı ilk testte yaklaşık 3.000 token/saniye (yaklaşık 300 eş zamanlı kullanıcıya hizmet vermek için yeterli) üretti. Bu da sekiz H200 GPU’ya sahip tek bir NVIDIA HGX sunucusunun 24.000 token/saniye sağlayabileceği ve aynı anda 2.400’den fazla kullanıcıyı destekleyerek maliyetleri daha da optimize edebileceği anlamına geliyor.
Uç cihazlar için, Llama 3’ün sekiz milyar parametreli sürümü Jetson AGX Orin’de 40 jeton/saniye ve Jetson Orin Nano’da 15 jeton/saniyeye kadar üretti.
Topluluk Modellerinin Geliştirilmesi
Aktif bir açık kaynak katılımcısı olan NVIDIA, kullanıcıların en zorlu sorunlarını çözmelerine yardımcı olan topluluk yazılımlarını optimize etmeye kararlı. Açık kaynaklı modeller yapay zeka şeffaflığını teşvik eder ve kullanıcıların yapay zeka güvenliği ve esnekliği konusundaki çalışmalarını geniş çapta paylaşmasına olanak tanır.