Omerta Silenzio

Başarılı
Katılım
18 Ekim 2025
Mesajlar
1.205
Makaleler
18
Çözümler
28
Beğeniler
1.778
Yer
Aokigahara
Selamlar arkadaşlar,

Bilgisayar Mühendisliği ve Veri Bilimi kökenli kurucu ekibimizle bir süredir üzerinde AR-GE yürüttüğümüz, teorik mimarisini tamamlayıp teknik altyapısını kurguladığımız Geniş Dil Modeli ve RAG projemizdeki gelişmeleri paylaşmak istiyorum sizlerle.

Projemiz; veri gizliliği odaklı, kurum içi çalışabilen ve özellikle teknik/akademik Türkçe literatüre hakim Enterprise-Grade bir yapay zeka ekosistemi kurmayı hedefliyor.

Şu an projenin donanım ihtiyaçlarını karşılamak ve ölçeklenmek için Pre-Seed yatırım turuna çıktık. Çeşitli VC ve angel Yatırımcı ağlarıyla görüşme sürecimiz devam ederken, teknik detayları forumdaki yetkin arkadaşlarla tartışmak istedim.


🎯 Değer Önerimiz (Value Proposition)​

Global API çözümleri (OpenAI vs.) veri mahremiyeti ve token maliyetleri açısından her kurum için uygun değil. Biz, şirketlerin kendi sunucularında çalışan, dışarı veri çıkarmayan "Egemen Yapay Zeka" (Sovereign AI) modelleri sunarak bu boşluğu doldurmayı amaçlıyoruz.

🛠️ Teknik Mimari (Technical Stack)​

Yatırım sunumlarımızda yer alan, yüksek performans odaklı hibrit mimarimiz şu şekilde:

1. Model Eğitim Stratejisi:
  • Base Model Seçimi: Ticari kullanım lisansı (Apache 2.0 / Community License) ve Türkçe token verimliliği nedeniyle Mistral veya Llama-3.1 mimarilerini baz alıyoruz.
  • Fine-Tuning: Şu an QLoRA (4-bit) teknikleriyle lokal testlerini yaptığımız yapıyı, yatırım sonrası DeepSpeed ZeRO-3 ve FSDP teknolojilerini kullanarak Multi-GPU ortamına (H100/A100 Cluster) taşıyacağız.
  • Hedef: Genel sohbet botu değil; Hukuk, Finans veya Mühendislik gibi dikey alanlarda uzmanlaşmış modeller.

2. Gelişmiş RAG Mimarisi:
Modelin halüsinasyon riskini minimize eden "Advanced RAG" yapımız:
  • Vector Search: Milvus veya Qdrant üzerinde, HNSW algoritmasıyla milisaniyeler içinde semantik arama.
  • Re-Ranking: Vektör aramadan dönen sonuçları Cross-Encoder modelleriyle tekrar puanlayarak bağlam doğruluğunu artırıyoruz.

3. Veri İşleme (Data Engineering):
Kaliteli veri, modelin yakıtıdır.
  • ETL Pipeline: Açık kaynaklı ve lisanslı veri setlerini Apache Spark ile temizleyip, Deduplication (tekilleştirme) işlemlerinden geçiriyoruz.
  • Format: Veriyi modelin en iyi anlayacağı ChatML veya Alpaca formatında instruction setlere dönüştürüyoruz.

🚀 Süreç ve Hedefler​

Proje şu an aktif tasarım ve prototipleme aşamasında, yatırım turumuz devam ediyor.
  • Faz 1 (Tamamlandı): Mimari tasarım, teknik stack seçimi ve ekip kurulumu.
  • Faz 2 (Şu An): POC (Proof of Concept) çalışmaları, Veri seti hazırlığı ve Yatırımcı görüşmeleri.
  • Faz 3 (Hedef): Turun kapanmasıyla birlikte Cloud GPU Cluster kiralanması ve ilk ticari modelin eğitimi.

Bu vizyona teknik katkı sunmak isteyen geliştirici aarkadaşlarla tartışmak isterim. Boyumuzdan büyük bir işe kalkıştık valla. Ya tarih yazacağız ya tarih olacağız. İyi sosyaller herkse.
 
Keşke açıklamayı da AI ile yazmasaydınız, bir şeyler yazıyor ama hiçbir şey anlatmıyor. Bir şeye başlamak çok kolay ama ardını getirmek o kadar kolay olmayabiliyor. Benim tavsiyem biraz yavaş ilerleyin. Mesela ortaya çıkış amacınızı önce bir kararlaştırın.

  • Mühendislik uygulamaları için özelleşmiş bir yapay zeka mı yapacaksınız?
  • Peki bu ihtiyacı nasıl bir kitleye sunmayı planlıyorsunuz ve bu insanlar güncel çözümlerle işlerinin ne kadarını halledemiyorlar ki size yönelsinler?
  • Proje için ne kadar zaman ve para harcanacak ve bu yatırımlar ne zaman tekrar dönmeye başlayacak?
 
Son düzenleme:
Keşke açıklamayı da AI ile yazmasaydınız, bir şeyler yazıyor ama hiçbir şey anlatmıyor. Bir şeye başlamak çok kolay ama ardını getirmek o kadar kolay olmayabiliyor. Benim tavsiyem biraz yavaş ilerleyin. Mesela ortaya çıkış amacınızı önce bir kararlaştırın.

  • Mühendislik uygulamaları için özelleşmiş bir yapay zeka mı yapacaksınız?
  • Peki bu ihtiyacı nasıl bir kitleye sunmayı planlıyorsunuz ve bu insanlar güncel çözümlerle işlerinin ne kadarını halledemiyorlar ki size yönelsinler?
  • Proje için ne kadar zaman ve para harcanacak ve bu yatırımlar ne zaman tekrar dönmeye başlayacak?
Hocam değerli eleştirileriniz için teşekkürler.
Metin teknik roadmap olduğu için kullanılan terminoloji biraz standart/kalıp gelmiş olabilir, ancak vizyon ve mimari tamamen sahadaki ihtiyaçlara dayanıyor.
PMBOK gibi geleneksel ve ağır metodolojiler kurumsal yapılar için elzem olsa da, biz bir teknoloji girişimi olarak Lean ve Agile prensiplerle, hızlı iterasyonlar yaparak ilerlemeyi tercih ediyoruz. Teoriden ziyade ürüne odaklıyız.


Sorularınıza gelince:
Hedef: Sadece mühendislik değil; verisini yasal regülasyonlar veya ticari sırlar nedeniyle OpenAI/Cloud servislerine gönderemeyen kurumlar.
Neden Biz?: Mevcut çözümler "Genel Zeka" sunuyor ve veriyi dışarı çıkarıyor. Biz ise "On-Premise" ve "Domain Specific" çalışarak veri egemenliğini kuruma geri veriyoruz.
ROI: Finansal projeksiyonlarımızı yatırımcı sunumlarımızda detaylandırdık, burası teknik bir başlık olduğu için o tarafa girmedim. Selamlar.
 
Son düzenleyen: Moderatör:
Toplum olarak Kumru AI gibi projeler yapılmadan mükemmele ulaşılamayacağını anlamamız gerekiyor, sıfırdan başlayıp ilk seferde en iyisini ya da iyi denilebilecek bir yapay zeka modelini ortaya koymanın hiç de basit olduğunu sanmıyorum. Öylece alaya vurmak sadece şevk kırmaktır, alay edenleri daha iyisini yapmaya davet ediyorum.
 
Hocam değerli eleştirileriniz için teşekkürler.
Metin teknik roadmap olduğu için kullanılan terminoloji biraz standart/kalıp gelmiş olabilir, ancak vizyon ve mimari tamamen sahadaki ihtiyaçlara dayanıyor.
PMBOK gibi geleneksel ve ağır metodolojiler kurumsal yapılar için elzem olsa da, biz bir teknoloji girişimi olarak Lean ve Agile prensiplerle, hızlı iterasyonlar yaparak ilerlemeyi tercih ediyoruz. Teoriden ziyade ürüne odaklıyız.


Sorularınıza gelince:
Hedef: Sadece mühendislik değil; verisini yasal regülasyonlar veya ticari sırlar nedeniyle OpenAI/Cloud servislerine gönderemeyen kurumlar.
Neden Biz?: Mevcut çözümler "Genel Zeka" sunuyor ve veriyi dışarı çıkarıyor. Biz ise "On-Premise" ve "Domain Specific" çalışarak veri egemenliğini kuruma geri veriyoruz.
ROI: Finansal projeksiyonlarımızı yatırımcı sunumlarımızda detaylandırdık, burası teknik bir başlık olduğu için o tarafa girmedim. Selamlar.


Hayır bir de işi bilmeyen insan yorum yapıyor ya deli oluyorum.
Örnek @GIRD4P adam ne güzel eleştirisini yapmış. TEKNIK ağız konuşmuş.
Bir de şu arkadaşa bakalım mesela;

Adamın tek vasfı mouse inceleme kalkmış bana akıl veriyor bir de :D hayatında kaç satır kod yazdın acaba dostum :d? Github profilini incelemek isterim, bu kadar büyük konuşuyorsan mouse incelemenin ötesine gitmiş olman lazım.
PMBOK kısmını sonradan kaldırdım zaten, şimdilik bu kadar teoride vakit öldürmeye gerek yok evet. Aynı vizyonla yola çıkan arkadaşlarım vardı girişimlerini kurdular, hatta birisi Amerika'da akademisyen bir hocamız. Cevaplarınızdan sonra biraz daha kafama yattı vizyonunuz. Egemen Yapay Zeka falan beynim bir şey yememişti.

Valla başarılar dilerim, AI sadece lokal olarak üzerinde çalıştığım bir konu o yüzden ekleme yapacağım bir yer yok, ben sadece daha önce girişim yapan 2 ayrı ekibin farklı zamanlarda takım lideri olarak ilk planlama kısmına takılmıştım.

Alanım siber güvenlik, şimdi yazdığım güvenlik temalı mobil uygulamada da lokal olarak Qwen2.514B çalıştırıyorum ancak o kadar, AI konusunda kalan kısmı siz benden iyi biliyorsunuzdur zaten. Sıfırdan bir şey yapmanın, başkaları daha önce yapmış olsa bile ne kadar zor oluğunu biliyorum o yüzden sabır ve dirayet diliyorum.
 
Toplum olarak Kumru AI gibi projeler yapılmadan mükemmele ulaşılamayacağını anlamamız gerekiyor, sıfırdan başlayıp ilk seferde en iyisini ya da iyi denilebilecek bir yapay zeka modelini ortaya koymanın hiç de basit olduğunu sanmıyorum. Öylece alaya vurmak sadece şevk kırmaktır, alay edenleri daha iyisini yapmaya davet ediyorum.
İspat yükümlülüğü proje sahibine aittir. Şayet iddialar da kendisine aittir. Ortaya Proof of Concept çıkarıp göstermesi gerekir. Onun haricinde bütün sözler, iddialar kuru sıkıdır. İşin eldeki insan kaynağı ve maddi imkanları ile yapılamayacağı ortadadır. Yaparlar da dedikleri tutarsa sözlerimizi yedirtirlerse ne mutlu ama ben pek inanmadım.
 
Toplum olarak Kumru AI gibi projeler yapılmadan mükemmele ulaşılamayacağını anlamamız gerekiyor, sıfırdan başlayıp ilk seferde en iyisini ya da iyi denilebilecek bir yapay zeka modelini ortaya koymanın hiç de basit olduğunu sanmıyorum. Öylece alaya vurmak sadece şevk kırmaktır, alay edenleri daha iyisini yapmaya davet ediyorum.
Kumru işini eleştirenler

  • Siyasetten beyni örümceklenmiş, Kumru'yu AKP girişimi sananlar.
  • Hayatında eline kalem almayan, başkalarının sözlerini tekrarlayan papağan kılıklılar
  • Eline kalem alan ancak hiç bir şey üretmeyen tembel kitle
  • Aşağılık psikolojisiyle boğazına kadar dolmuş "Biz zaten yapamayız"'cılar.
  • Cidden bu işi bilen, alanında uzman kişilerin Kumru'yu profesyonel olarak ele alması (Hiç denk gelmedim.)
Talihsiz bir şeydi o işin ortalığa düşmesi, girişimin yerinde olsam ya ülkeyi terk ederim ya da isim değiştiririm. Bu kafayla iyi yapsan da bir kılıf bulurlar. (Sadece Kumru nezdinde konuşuyorum, söylediklerimin bu konu ile alakası yok.)
 
İspat yükümlülüğü proje sahibine aittir. Şayet iddialar da kendisine aittir. Ortaya Proof of Concept çıkarıp göstermesi gerekir. Onun haricinde bütün sözler, iddialar kuru sıkıdır. İşin eldeki insan kaynağı ve maddi imkanları ile yapılamayacağı ortadadır. Yaparlar da dedikleri tutarsa sözlerimizi yedirtirlerse ne mutlu ama ben pek inanmadım.
Hocam şüphelenmekte sonuna kadar haklısınız. sektör yapay zeka yapıyorum deyip OpenAI wrapper'ı yazan projelerle dolu olduğu için temkinli yaklaşmanız çok doğal.
Ancak imkanlarla yapılamaz kısmı artık geçerli değil. QLoRA ve PEFT gibi teknolojiler sayesinde, milyar dolarlık donanımlar olmadan da domain spesifik modeller eğitilebiliyor. Bizim güvendiğimiz altyapı da tam olarak bu verimliliğe dayanıyor aslında.

PoC şu an lokalde çalışıyor ve yatırımcı sunumlarında canlı gösteriyoruz. Public demo için sunucu maliyetlerini optimize etmeyi bekliyoruz. İlerleyen süreçte somut çıktılar paylaştığımızda fikirlerinizin değişeceğini umuyorum.
Eleştiri için teşekkürler, selamlar