Açık kaynak modeller (Llama, Mistral, Qwen, DeepSeek) artık ciddi rakipler. Aynı zamanda OpenAI, Anthropic ve Google API hizmetleri de güçleniyor. Bu sayfanın amacı “hangisi daha iyi” değil; bir ekibin hangi koşullarda hangi yönde gitmesi mantıklı olduğunu netleştirmek.
Karar 4 eksende oluşur: maliyet, gecikme, gizlilik ve operasyon yükü.
Hızlı karar özeti
- Düşük hacim, yüksek esneklik: Bulut API. Yatırım maliyeti yok, ilk gün üretime alınır.
- Yüksek hacim, hassas veri: Yerel model. Veri dışarı çıkmaz, uzun vadede maliyet düşer.
- Sektör özel ince ayar: Yerel model. Tam kontrol ve özelleştirme sağlar.
- Hızlı prototip ve ürün doğrulama: Bulut API. Kurulum saatlerle, gün değil.
Maliyet ekseni
Bulut API’nin maliyeti per-token şeklinde çalışır. Düşük kullanım hacminde ucuzdur; aylık 100 dolar harcayan bir startup için bulut hala daha mantıklıdır. Ama hacim arttıkça eğri tersine döner.
Yerel modeller, donanım yatırımı gerektirir. Bir A100 veya benzeri GPU yıllık binlerce dolardır. Buna karşılık çalıştırma maliyeti per-istek çok düşüktür. Kritik soru: aylık kaç milyon token işleniyor?
Yaklaşık eşik: ayda 10 milyon token altında bulut, üstünde yerel daha mantıklıdır. Bu sadece kaba bir kural.
Gecikme ekseni
Bulut API’nin gecikmesi ağ ve sıraya bağlıdır. Türkiye’den OpenAI’ye istek atan bir uygulama 200-600 ms eklenen ağ gecikmesi yaşar. Bu, kullanıcı için fark edilebilir.
Yerel model, doğru donanımda 50 ms altında cevap verebilir. Ses asistanı, gerçek zamanlı yardım veya yoğun otomasyon gibi düşük gecikme isteyen kullanımlarda yerel ciddi avantaj sağlar.
Gizlilik ekseni
Bulut API kullanıldığında veri, sağlayıcı sunucularına gider. Çoğu sağlayıcı eğitim için kullanmama taahhüdü verir (OpenAI Enterprise, Anthropic, Azure OpenAI). Ancak veri yine de o şirketin altyapısından geçer.
Hassas veri kategorileri: müşteri kişisel bilgisi, sağlık verisi, finans işlemleri, hukuki belgeler. Bu kategoriler için yerel çalıştırma, KVKK ve sektörel düzenleme açısından daha güvenli seçimdir.
Operasyon yükü
En sık göz ardı edilen eksen budur. Bulut API kullanmak demek bir HTTP isteği yazmak demektir; bakım yok, güncelleme yok, ölçeklendirme problemi yok.
Yerel model çalıştırmak demek model güncellemelerini takip etmek, donanımı yönetmek, kuyruğa alma ve yük dengeleme yapmak demektir. Ufak bir ekip için bu yük çoğu zaman kazançtan büyüktür.
Bir tahmin yapmak gerekirse: yerel altyapı yönetimi en azından yarı zamanlı bir DevOps kaynağı tüketir.
Karma yaklaşım
Çoğu olgun ekibin tercih ettiği yol karma kurulumdur:
- Hassas veri görevleri için yerel açık kaynak model
- Genel zekâ isteyen görevler için bulut API (en güçlü model)
- Yüksek hacimli basit görevler için yerel küçük model
Bu yapı, hem maliyet kontrolünü hem de yetkinlik üst sınırını korur.
Pratik karar matriksi
Üç soru karar verir:
- Aylık token hacmi 10 milyon üzerinde mi? Evetse yerel ekonomik olur.
- İşlenen veri kategorisi hassas mı? Evetse yerel zorunluluğa yakın.
- Ekipte yarı zamanlı bile olsa altyapı kaynağı var mı? Yoksa bulut tek seçenek.
İkiden fazla “yerel” cevabı, açık kaynak yönünde gitme sinyalidir.
Sonraki adım
Açık kaynak modelleri test etmek isteyenler için DeepSeek kullanım rehberi bir başlangıç olabilir. Karar verme sürecini genel araç seçimine bağlamak için ChatGPT, Claude ve Gemini karşılaştırması yararlıdır.