OpenAI ve Anthropic gibi bulut AI'lar güçlü ama; verileriniz dışarı çıkar, KVKK/GDPR riski oluşur, internet bağlantısı gerekir ve sürekli token ücreti ödersiniz. Yerel (on-premise) AI kurulumu bu sorunların hepsini çözer: kendi sunucunuzda çalışır, veriler içeride kalır, tek seferlik donanım yatırımı sonrası kullanım sınırsızdır. Bu rehberde Ollama, vLLM ve llama.cpp ile yerel LLM kurulumunu adım adım anlatıyoruz.

Neden Yerel AI?

  • Veri gizliliği: Sağlık, finans, hukuk verileri sunucunuzdan çıkmaz
  • KVKK / GDPR uyum: Veri Türkiye / Avrupa sınırı içinde kalır
  • Maliyet: Ayda 100K+ token kullanan firma için bulut AI çok pahalı
  • Latency: Yerel ağda <100ms yanıt
  • Sansürsüz: Açık kaynak modelleri istediğiniz gibi finetune edebilirsiniz
  • Offline: İnternet kopukluğunda çalışmaya devam eder

Açık Kaynak Model Seçenekleri (2026)

ModelBoyutTürkçeLisans
Llama 3.3 70B40 GBİyiLlama 3 Custom
Llama 3.1 8B4.7 GBOrtaLlama 3 Custom
Qwen 2.5 32B20 GBİyiApache 2.0
Mistral Small 22B13 GBOrta-İyiApache 2.0
Gemma 2 9B5 GBOrtaGemma License
Trendyol-LLM 7B4 GBÇok İyi (TR-finetune)Apache 2.0

Donanım Önerileri

Küçük (7-8B model, 1-5 kullanıcı)

  • 16 GB RAM, 8-12 GB VRAM (RTX 3060, 4060)
  • Tahmini yatırım: 25.000 - 40.000 TL
  • Yanıt: 30-50 token/saniye

Orta (13-32B model, 5-30 kullanıcı)

  • 32 GB RAM, 24 GB VRAM (RTX 3090, 4090, A5000)
  • Tahmini yatırım: 80.000 - 130.000 TL
  • Yanıt: 20-40 token/saniye

Büyük (70B+ model, 30+ kullanıcı)

  • 64-128 GB RAM, 80 GB+ VRAM (2× A100 80GB veya 4× RTX 6000)
  • Tahmini yatırım: 500.000 TL +
  • Yanıt: 15-30 token/saniye

Sadece CPU (Yavaş Test)

  • AMD Ryzen 9 / Intel i9 + 64 GB RAM
  • Yanıt: 3-8 token/saniye (yavaş ama mümkün)

Kurulum Yöntemleri

1. Ollama (En Kolay)

Tek satırla model çalıştırma:

curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b
ollama run llama3.1:8b

OpenAI uyumlu API sağlar (port 11434), drop-in replacement olarak mevcut kodda kullanılabilir.

2. vLLM (En Hızlı)

Yüksek throughput, paralel istek için ideal. PagedAttention ile bellek verimli:

pip install vllm
vllm serve meta-llama/Llama-3.1-8B-Instruct \\
  --host 0.0.0.0 --port 8000

3. llama.cpp (Düşük Donanım)

GGUF kuantizasyon ile CPU + GPU karma çıkarım. Q4_K_M ya da Q5_K_M kuantizasyon kalite/boyut dengesi için ideal:

./llama-server -m llama-3-8b-q4.gguf \\
  --host 0.0.0.0 --port 8080 -ngl 99

4. LocalAI (OpenAI Drop-in)

Mevcut OpenAI client kodunu hiç değiştirmeden çalıştırmak için:

docker run -p 8080:8080 -v models:/models \\
  localai/localai:latest llama-3-8b-instruct

RAG (Bilgi Bankası) ile Birleştirme

Yerel LLM + Vector DB (Qdrant, Weaviate, pgvector) + Embedding modeli (BGE-M3, multilingual-e5) ile şirket dökümanlarınızı AI'ın bilgi tabanı yapın. Hibrit arama (semantik + anahtar kelime + reranker) ile yüksek doğruluk.

Güvenlik & İzleme

  • JWT / API key authentication
  • Prompt injection filtreleri
  • PII (kişisel veri) maskeleme
  • Prometheus + Grafana ile metrik izleme
  • OpenTelemetry ile prompt logging
  • Rate limiting ve abuse protection

RFSoftwareSolution Yerel AI Hizmetleri

Donanım önerisi, model seçimi, kurulum, RAG, entegrasyon ve eğitim — tüm süreç tek bir partnerle. Detaylar için AI & Yerel AI Kurulum sayfamıza göz atın veya ücretsiz danışmanlık talep edin.

2023 © RFSoftwareSolution ~ Tüm hakları saklıdır.