Geç cevap için kusura bakmayın ancak görebildim. 1 TB’lık çıktıyı milyar parametreli LLM modellerini sıfırdan eğitirken rahatlıkla görebilirsin. Her checkpoint dosyası yüzlerce GB olabilir ve onlarca checkpoint biriktiğinde TB'ları bile geçer. Yani kullanılan parametre arttıkça checkpoint noktalarının boyutları da o kadar artıyor.
Okuduğum bir makaleye göre örnek vermem gerekirse llama 2nin 70B modelinden verebilirim. Bu ölçekteki bir modeli sıfırdan eğitmek, Meta'nın dediğine göre neredeyse 1.7 milyon GPU saatlik compute istiyormuş.
Yani tek bir GPU ile eğitmek isteseydin 200 yıl sürerdi.

10.000 tane GPU ile yaparsan 1 hafta da hallolurdu.
GPT 4'ün tahminen 1 trilyon parametreye sahip olduğunu varsayarsak bu deve de kulak kalıyor diyebilirim.
Bu tip eğitimleri biz gibi orta ölçekli şirketler genelde AWS'in HPC sunucularında veya Bedrock üzerinde yapıyor. Ancak büyük şirketler maliyetlerinden ötürü bunu tercih etmiyor tabii ki. NVIDIA'nın dünyanın en büyük şirketi olma sebebi de tam olarak bu.