Multi-GPU ile yapay zeka eğitmek

Sunucunun arkada nasıl yapılandırıldığını bilmiyorum, belki konfigürasyon makineler arasındaki iletişimi kısıtlıyordur. Başka bir backend kullanmayı deneseniz?
Hocam bu işte birazcık dokümantasyon ve kaynak sınırı var, genelde son kullanıcılarda çoklu gpu olmuyor ve son kullanıcılar bu işlerle pek uğraşmıyor diye destek hem çok az hem de bilgi çok sınırlı. Bu kaynak bulabildiklerim arasında en çok kullanılan ve multi-gpu desteği olanıydı. Bu sebeple kullanıyordum. Benim kendi train ayarlarımla alakalı da sorunlar varmış onları da düzelttim. Şu anda Latent Cache alıyorum, o bitsin duruma göre 8xH100 veya 16xA100 ile eğitimi başlatıp güncelleme yapacağım, bu konuyla alakalı bir makale yazmayı da düşünüyorum açıkçası Techolay'da
 
Hocam bu işte birazcık dokümantasyon ve kaynak sınırı var, genelde son kullanıcılarda çoklu gpu olmuyor ve son kullanıcılar bu işlerle pek uğraşmıyor diye destek hem çok az hem de bilgi çok sınırlı. Bu kaynak bulabildiklerim arasında en çok kullanılan ve multi-gpu desteği olanıydı. Bu sebeple kullanıyordum. Benim kendi train ayarlarımla alakalı da sorunlar varmış onları da düzelttim. Şu anda Latent Cache alıyorum, o bitsin duruma göre 8xH100 veya 16xA100 ile eğitimi başlatıp güncelleme yapacağım, bu konuyla alakalı bir makale yazmayı da düşünüyorum açıkçası Techolay'da
16 GPU'nun her birinde 40'ar GB VRAM var. Gerçekten Latent Cache'a ihtiyacınız var mı ki? Eğer konfigürasyon hatalarınızı da konu içinde belirtirseniz çok güzel olur.
 
16 GPU'nun her birinde 40'ar GB VRAM var. Gerçekten Latent Cache'a ihtiyacınız var mı ki? Eğer konfigürasyon hatalarınızı da konu içinde belirtirseniz çok güzel olur.
Hocam merhaba, geç cevap için üzgünüm yoğun bir şekilde testlerle uğraşıyordum. 40 GB VRAM yetersiz oluyor çünkü tam performans için havuz vram yerine her gpu'ya tek tek aynı dataları yükleyip bir tane sunucuyu kendi aralarında yönetici belirliyorlar (genellikle gpu0 oluyor) ve onunla iletişim halinde her gpu kendi işlemini yapıyor. Bahsettiğim çoklu gpu konfigürasyonunu çözdüm DDP ile (Distributed-Data Parallel). Yaklaşık 15x performans alıyorum ufak bir kayıp oluyor :D .A100 40Gb yerine H100 ile eğitimi yapmaya karar verdim. Hem zaman hem de daha verimli iş yapabilmek için. Şu anda devam ediyor bakalım. 12 gün sonra bitecek gibi bir aksilik çıkmazsa.
 

Yeni konular

Geri
Yukarı Alt