Selam arkadaşlar,
Bilgisayar mühendisliği ve veri bilimi kökenli kurucu ekibimizle bir süredir üzerinde ar-ge yürüttüğümüz, teorik mimarisini tamamlayıp teknik altyapısını kurguladığımız
geniş dil modeli ve
rag projemizdeki gelişmeleri paylaşmak istiyorum sizlerle.
Projemiz; veri gizliliği odaklı, kurum içi çalışabilen ve özellikle teknik/akademik Türkçe literatüre hakim
Enterprise-grade bir yapay zeka ekosistemi kurmayı hedefliyor.
Şu an projenin donanım ihtiyaçlarını karşılamak ve ölçeklenmek için
pre-seed yatırım turuna çıktık. çeşitli vc ve angel yatırımcı ağlarıyla görüşme sürecimiz devam ederken, teknik detayları forumdaki yetkin arkadaşlarla tartışmak istedim.
değer önerimiz (Value proposition)
Global API çözümleri (OpenAI vs.) Veri mahremiyeti ve token maliyetleri açısından her kurum için uygun değil. Biz, şirketlerin kendi sunucularında çalışan, dışarı veri çıkarmayan
"Egemen yapay zeka" (sovereign AI) modelleri sunarak bu boşluğu doldurmayı amaçlıyoruz.
teknik mimari (technical stack)
Yatırım sunumlarımızda yer alan, yüksek performans odaklı hibrit mimarimiz şu şekilde:
1. model eğitim stratejisi:
- base model seçimi: ticari kullanım lisansı (Apache 2.0 / community license) ve Türkçe token verimliliği nedeniyle mistral veya llama-3.1 mimarilerini baz alıyoruz.
- fine-tuning: şu an qlora (4-bit) teknikleriyle lokal testlerini yaptığımız yapıyı, yatırım sonrası deepspeed Zero-3 ve fsdp teknolojilerini kullanarak multi-GPU ortamına (H100/A100 cluster) taşıyacağız.
- hedef: genel sohbet botu değil; hukuk, finans veya mühendislik gibi dikey alanlarda uzmanlaşmış modeller.
2. gelişmiş rag mimarisi:
Modelin halüsinasyon riskini minimize eden "Advanced rag" yapımız:
- Vector Search: milvus veya qdrant üzerinde, hnsw algoritmasıyla milisaniyeler içinde semantik arama.
- re-ranking: vektör aramadan dönen sonuçları cross-encoder modelleriyle tekrar puanlayarak bağlam doğruluğunu artırıyoruz.
3. veri işleme (data engineering):
Kaliteli veri, modelin yakıtıdır.
- ETL pipeline: açık kaynaklı ve lisanslı veri setlerini Apache spark ile temizleyip, deduplication (tekilleştirme) işlemlerinden geçiriyoruz.
- format: veriyi modelin en iyi anlayacağı chatml veya alpaca formatında instruction setlere dönüştürüyoruz.
süreç ve hedefler
Proje şu an aktif tasarım ve prototipleme aşamasında, yatırım turumuz devam ediyor.
- faz 1 (tamamlandı): mimari tasarım, teknik stack seçimi ve ekip kurulumu.
- faz 2 (şu an): poc (proof of concept) çalışmaları, veri seti hazırlığı ve yatırımcı görüşmeleri.
- faz 3 (hedef): turun kapanmasıyla birlikte Cloud GPU cluster kiralanması ve ilk ticari modelin eğitimi.
Bu vizyona teknik katkı sunmak isteyen geliştirici aarkadaşlarla tartışmak isterim. Boyumuzdan büyük bir işe kalkıştık vallahi. Ya tarih yazacağız ya tarih olacağız. İyi sosyaller herkse.