Yapay zeka eğitileceği zaman çok mu fazla donanım gücü istiyor?

Morthunel · 6 Ağustos 2025

Yapay zeka ve derin öğrenme konusunda projeler yapılıyormuş. Bunların nasıl eğitildiğini ve bunu yapabilecek donanımı bilmek istiyorum. Süper bilgisayarları örnek göstermeyin. HPC sunucuları falan var mış. Ne işe yaradığını adamakıllı bilmiyorum. Bir çok güçlü bir server olduğunu biliyorum.

İyi Sosyaller.

barishizm · 6 Ağustos 2025

Derin öğrenme çook miktarda veriyi, modele küçük paketler halinde verip ileri geçiş, kayıp hesabı, backprop dediğimiz (sanırım geri yayılım demek oluyor türkçesi) ile ağırlıkları defalarca güncelleyerek eğitilir PyTorch veya TensorFlow gibi optimizer’lar, öğrenme oranı planları gibi teknikler işi hızlandırır.

Teknik olarak en kritik donanım GPU ve onun VRAM’idir (ne kadar büyükse o kadar büyük batch sığdırırsın) hızlı SSD, yeterli CPU/RAM ve iyi bir internet de gereklidir. HPC sunucuları, birden çok güçlü GPU’ya sahip çok sayıda server'ı bir araya getirir yani belirli sayıda GPU/CPU/RAM’i belirli süreliğine rezerve edip işini sıraya atarsın, düğümler arası InfiniBand adı verilen hızlı ağ ile veriyi dağıtıp paralel eğitimi daha ölçeklenebilir şekilde yaparsın.

Tabii sıfırdan büyük bir proje yapmak istiyorsan, çoklu GPU (yani HPC) ve haftalarca hesap gücü ister.
Ama küçük projeler için 12-24GB VRAM'li GPU ve SSD ile de eğitebilirsin.
Biz projelerimizde kendi laptoplarımız ile 45 dakika - 1 saat arasında modelleri eğittiğimiz oluyor. (RTX3050 ve Apple Silicon M3 kullandık.)

Anlatabileceğim en kolay şekli böyle sanırsam.

Morthunel · 6 Ağustos 2025

barishizm dedi:
Derin öğrenme çook miktarda veriyi, modele küçük paketler halinde verip ileri geçiş, kayıp hesabı, backprop dediğimiz (sanırım geri yayılım demek oluyor türkçesi) ile ağırlıkları defalarca güncelleyerek eğitilir PyTorch veya TensorFlow gibi optimizer’lar, öğrenme oranı planları gibi teknikler işi hızlandırır.

Teknik olarak en kritik donanım GPU ve onun VRAM’idir (ne kadar büyükse o kadar büyük batch sığdırırsın) hızlı SSD, yeterli CPU/RAM ve iyi bir internet de gereklidir. HPC sunucuları, birden çok güçlü GPU’ya sahip çok sayıda server'ı bir araya getirir yani belirli sayıda GPU/CPU/RAM’i belirli süreliğine rezerve edip işini sıraya atarsın, düğümler arası InfiniBand adı verilen hızlı ağ ile veriyi dağıtıp paralel eğitimi daha ölçeklenebilir şekilde yaparsın.

Tabii sıfırdan büyük bir proje yapmak istiyorsan, çoklu GPU (yani HPC) ve haftalarca hesap gücü ister.
Ama küçük projeler için 12-24GB VRAM'li GPU ve SSD ile de eğitebilirsin.
Biz projelerimizde kendi laptoplarımız ile 45 dakika - 1 saat arasında modelleri eğittiğimiz oluyor. (RTX3050 ve Apple Silicon M3 kullandık.)

Anlatabileceğim en kolay şekli böyle sanırsam.

Öncelikle açıklama yaptığınız için teşekkür ederim. Sanırım bu derin öğrenme konuları çıktısı 1 TB kadar olabiliyormuş. O kadar zor olan projeler oluyor mu? 1 TB kadar oluyorsa ne kadar uzun sürer?

barishizm · 7 Ağustos 2025

Morthunel dedi:
Öncelikle açıklama yaptığınız için teşekkür ederim. Sanırım bu derin öğrenme konuları çıktısı 1 TB kadar olabiliyormuş. O kadar zor olan projeler oluyor mu? 1 TB kadar oluyorsa ne kadar uzun sürer?

Geç cevap için kusura bakmayın ancak görebildim. 1 TB’lık çıktıyı milyar parametreli LLM modellerini sıfırdan eğitirken rahatlıkla görebilirsin. Her checkpoint dosyası yüzlerce GB olabilir ve onlarca checkpoint biriktiğinde TB'ları bile geçer. Yani kullanılan parametre arttıkça checkpoint noktalarının boyutları da o kadar artıyor.

Okuduğum bir makaleye göre örnek vermem gerekirse llama 2nin 70B modelinden verebilirim. Bu ölçekteki bir modeli sıfırdan eğitmek, Meta'nın dediğine göre neredeyse 1.7 milyon GPU saatlik compute istiyormuş.
Yani tek bir GPU ile eğitmek isteseydin 200 yıl sürerdi.

10.000 tane GPU ile yaparsan 1 hafta da hallolurdu.
GPT 4'ün tahminen 1 trilyon parametreye sahip olduğunu varsayarsak bu deve de kulak kalıyor diyebilirim.

Bu tip eğitimleri biz gibi orta ölçekli şirketler genelde AWS'in HPC sunucularında veya Bedrock üzerinde yapıyor. Ancak büyük şirketler maliyetlerinden ötürü bunu tercih etmiyor tabii ki. NVIDIA'nın dünyanın en büyük şirketi olma sebebi de tam olarak bu.

Morthunel · 7 Ağustos 2025

barishizm dedi:
Geç cevap için kusura bakmayın ancak görebildim. 1 TB’lık çıktıyı milyar parametreli LLM modellerini sıfırdan eğitirken rahatlıkla görebilirsin. Her checkpoint dosyası yüzlerce GB olabilir ve onlarca checkpoint biriktiğinde TB'ları bile geçer. Yani kullanılan parametre arttıkça checkpoint noktalarının boyutları da o kadar artıyor.

Okuduğum bir makaleye göre örnek vermem gerekirse llama 2nin 70B modelinden verebilirim. Bu ölçekteki bir modeli sıfırdan eğitmek, Meta'nın dediğine göre neredeyse 1.7 milyon GPU saatlik compute istiyormuş.
Yani tek bir GPU ile eğitmek isteseydin 200 yıl sürerdi. 10.000 tane GPU ile yaparsan 1 hafta da hallolurdu.
GPT 4'ün tahminen 1 trilyon parametreye sahip olduğunu varsayarsak bu deve de kulak kalıyor diyebilirim.

Bu tip eğitimleri biz gibi orta ölçekli şirketler genelde AWS'in HPC sunucularında veya Bedrock üzerinde yapıyor. Ancak büyük şirketler maliyetlerinden ötürü bunu tercih etmiyor tabii ki. NVIDIA'nın dünyanın en büyük şirketi olma sebebi de tam olarak bu.

Cevap için teşekkür ederim. Bende ufak bir araştırma yaptım. Bir yerin yapay zeka/makine öğrenimi için 7 sunucusu var mış. Her birinde 256 GB RAM, Intel Xeon işlemci var mış. Toplamda ise 35 GPU var mış. Bu iş görür mü?

barishizm · 7 Ağustos 2025

Morthunel dedi:
Cevap için teşekkür ederim. Bende ufak bir araştırma yaptım. Bir yerin yapay zeka/makine öğrenimi için 7 sunucusu var mış. Her birinde 256 GB RAM, Intel Xeon işlemci var mış. Toplamda ise 35 GPU var mış. Bu iş görür mü?

Burada GPU’ların modeli ve VRAM'i biraz önemli. A100 80 GB sınıfındaysa 70B’lik bir modeli eğitmesi aylar sürer ama 7B parametreli modelleri iyi bir sürede sıfırdan eğitebilir. Mühim olan parametre boyutu ve GPU kapasitesi.

Morthunel · 7 Ağustos 2025

barishizm dedi:
Burada GPU’ların modeli ve VRAM'i biraz önemli. A100 80 GB sınıfındaysa 70B’lik bir modeli eğitmesi aylar sürer ama 7B parametreli modelleri iyi bir sürede sıfırdan eğitebilir. Mühim olan parametre boyutu ve GPU kapasitesi.

https://www.supermicro.com/en/products/system/gpu/4u/sys-740gp-tnrt

Bulduklarımdan bir tanesi bu.

Yapay zeka eğitileceği zaman çok mu fazla donanım gücü istiyor?

Detaylar

Morthunel

Üstün

barishizm

Yetkin

Morthunel

Üstün

barishizm

Yetkin

Morthunel

Üstün

barishizm

Yetkin

Morthunel

Üstün

Benzer konular

Yeni konular

Yeni mesajlar