Yapay zeka eğitileceği zaman çok mu fazla donanım gücü istiyor?

Katılım
22 Aralık 2023
Mesajlar
2.023
Çözümler
1
Beğeniler
854
Yapay zeka ve derin öğrenme konusunda projeler yapılıyormuş. Bunların nasıl eğitildiğini ve bunu yapabilecek donanımı bilmek istiyorum. Süper bilgisayarları örnek göstermeyin. HPC sunucuları falan var mış. Ne işe yaradığını adamakıllı bilmiyorum. Bir çok güçlü bir server olduğunu biliyorum.

İyi Sosyaller.
 
Derin öğrenme çook miktarda veriyi, modele küçük paketler halinde verip ileri geçiş, kayıp hesabı, backprop dediğimiz (sanırım geri yayılım demek oluyor türkçesi) ile ağırlıkları defalarca güncelleyerek eğitilir PyTorch veya TensorFlow gibi optimizer’lar, öğrenme oranı planları gibi teknikler işi hızlandırır.

Teknik olarak en kritik donanım GPU ve onun VRAM’idir (ne kadar büyükse o kadar büyük batch sığdırırsın) hızlı SSD, yeterli CPU/RAM ve iyi bir internet de gereklidir. HPC sunucuları, birden çok güçlü GPU’ya sahip çok sayıda server'ı bir araya getirir yani belirli sayıda GPU/CPU/RAM’i belirli süreliğine rezerve edip işini sıraya atarsın, düğümler arası InfiniBand adı verilen hızlı ağ ile veriyi dağıtıp paralel eğitimi daha ölçeklenebilir şekilde yaparsın.

Tabii sıfırdan büyük bir proje yapmak istiyorsan, çoklu GPU (yani HPC) ve haftalarca hesap gücü ister.
Ama küçük projeler için 12-24GB VRAM'li GPU ve SSD ile de eğitebilirsin.
Biz projelerimizde kendi laptoplarımız ile 45 dakika - 1 saat arasında modelleri eğittiğimiz oluyor. (RTX3050 ve Apple Silicon M3 kullandık.)

Anlatabileceğim en kolay şekli böyle sanırsam.
 
Öncelikle açıklama yaptığınız için teşekkür ederim. Sanırım bu derin öğrenme konuları çıktısı 1 TB kadar olabiliyormuş. O kadar zor olan projeler oluyor mu? 1 TB kadar oluyorsa ne kadar uzun sürer?
 
Geç cevap için kusura bakmayın ancak görebildim. 1 TB’lık çıktıyı milyar parametreli LLM modellerini sıfırdan eğitirken rahatlıkla görebilirsin. Her checkpoint dosyası yüzlerce GB olabilir ve onlarca checkpoint biriktiğinde TB'ları bile geçer. Yani kullanılan parametre arttıkça checkpoint noktalarının boyutları da o kadar artıyor.

Okuduğum bir makaleye göre örnek vermem gerekirse llama 2nin 70B modelinden verebilirim. Bu ölçekteki bir modeli sıfırdan eğitmek, Meta'nın dediğine göre neredeyse 1.7 milyon GPU saatlik compute istiyormuş.
Yani tek bir GPU ile eğitmek isteseydin 200 yıl sürerdi. 10.000 tane GPU ile yaparsan 1 hafta da hallolurdu.
GPT 4'ün tahminen 1 trilyon parametreye sahip olduğunu varsayarsak bu deve de kulak kalıyor diyebilirim.

Bu tip eğitimleri biz gibi orta ölçekli şirketler genelde AWS'in HPC sunucularında veya Bedrock üzerinde yapıyor. Ancak büyük şirketler maliyetlerinden ötürü bunu tercih etmiyor tabii ki. NVIDIA'nın dünyanın en büyük şirketi olma sebebi de tam olarak bu.
 
Cevap için teşekkür ederim. Bende ufak bir araştırma yaptım. Bir yerin yapay zeka/makine öğrenimi için 7 sunucusu var mış. Her birinde 256 GB RAM, Intel Xeon işlemci var mış. Toplamda ise 35 GPU var mış. Bu iş görür mü?
 
Burada GPU’ların modeli ve VRAM'i biraz önemli. A100 80 GB sınıfındaysa 70B’lik bir modeli eğitmesi aylar sürer ama 7B parametreli modelleri iyi bir sürede sıfırdan eğitebilir. Mühim olan parametre boyutu ve GPU kapasitesi.
 
Bu siteyi kullanmak için çerezler gereklidir. Siteyi kullanmaya devam etmek için çerezleri kabul etmelisiniz. Daha Fazlasını Öğren.…