İyi forumlar. Kendi Techolay profilimi web.archive.org'da görünce araştırma yapmak istedim. Keyifli okumalar.
Web Archive Tam Olarak Nasıl Çalışıyor?
Kısaca, botlar ve algoritmalar kullanarak internetteki siteleri belli aralıklarla tarıyor. Tararken sadece HTML'yi değil, sayfadaki görselleri, CSS dosyalarını, JavaScript kodlarını ve içerideki linkleri de kaydediyor. Bu sayede sadece bir görünüş değil, sayfanın çalışma mantığı da yakalanmış oluyor.
Elde edilen her bir veri paketi, "hangi URL, hangi tarih" bilgisiyle etiketleniyor.
Bu Kadar Veriyi Nasıl Saklıyorlar?
- Sunucu Çiftlikleri: Yüzlerce, binlerce sunucu kullanıyorlar. Bunlar normal hosting sunucuları gibi değil; ağırlıklı olarak disk kapasitesine yatırım yapılmış özel makineler.
- Devasa Depolama: Rakamlar inanılmaz. Web Archive'ın veri boyutunun petabaytları geçtiği söyleniyor (1 PB = 1000 TB).
- Coğrafi Dağıtım: Sadece bir yerde de değil. ABD içinde farklı eyaletlerde ve hatta bazı diğer ülkelerde bile veri merkezleri var. Bir yerde yangın, deprem olursa diye yedekli yönetiyorlar.
- Bağışlarla Ayakta: Web Archive ticari bir yer değil. Kâr amacı yok. Bağışlarla, sponsorlarla ve bazen üniversitelerden gelen desteklerle hayatta kalıyor.
- Özel Sunucu Tasarımları: Arşivleme işlemi ağır bant genişliği ve çok işlem gücü istiyor. Bu nedenle sunucuları maksimum veri sıkıştırma ve transfer hızı için özelleştirmişler.
Karşılaştıkları Problemler
Araştırırken şunları da gördüm:
- Dinamik İçerikler: Ajax, JSON gibi dinamik veri çeken siteleri kaydetmek zor. Bunun için Web Archive, botlarını sürekli geliştiriyor.
- Telif Hakları: Bazı siteler, "beni arşivleme" diyebiliyor. Web Archive bu taleplere saygı duyuyor ve ilgili içerikleri kaldırıyor.
- Sürekli Gelişim Şart: Web'de her gün yeni teknoloji çıkıyor. Buna ayak uydurmak zorunda oldukları için altyapılarını sürekli yeniliyorlar.
İşin Özeti
Web Archive, bugüne kadar internetin hafızası gibi çalışıyor. Binlerce sunucu, yüzlerce petabayt veri ve dev bir organizasyonla bu işi yürütüyorlar. Araştırırken gerçekten büyük emek ve teknoloji kullanıldığını gördüm. İnternette kaybolan içerikleri yıllar sonra bile bulabilmek bizim için muazzam bir nimet.
Siz de merak ediyorsanız, web.archive.org adresinden eski sitelere bakabilir, hatta kendi sitenizi arşivletebilirsiniz.