RFSoftwareSolution - Web Tasarım & Yazılım

OpenAI ve Anthropic gibi bulut AI'lar güçlü ama; verileriniz dışarı çıkar, KVKK/GDPR riski oluşur, internet bağlantısı gerekir ve sürekli token ücreti ödersiniz. Yerel (on-premise) AI kurulumu bu sorunların hepsini çözer: kendi sunucunuzda çalışır, veriler içeride kalır, tek seferlik donanım yatırımı sonrası kullanım sınırsızdır. Bu rehberde Ollama, vLLM ve llama.cpp ile yerel LLM kurulumunu adım adım anlatıyoruz.

Neden Yerel AI?

Veri gizliliği: Sağlık, finans, hukuk verileri sunucunuzdan çıkmaz
KVKK / GDPR uyum: Veri Türkiye / Avrupa sınırı içinde kalır
Maliyet: Ayda 100K+ token kullanan firma için bulut AI çok pahalı
Latency: Yerel ağda <100ms yanıt
Sansürsüz: Açık kaynak modelleri istediğiniz gibi finetune edebilirsiniz
Offline: İnternet kopukluğunda çalışmaya devam eder

Açık Kaynak Model Seçenekleri (2026)

Model	Boyut	Türkçe	Lisans
Llama 3.3 70B	40 GB	İyi	Llama 3 Custom
Llama 3.1 8B	4.7 GB	Orta	Llama 3 Custom
Qwen 2.5 32B	20 GB	İyi	Apache 2.0
Mistral Small 22B	13 GB	Orta-İyi	Apache 2.0
Gemma 2 9B	5 GB	Orta	Gemma License
Trendyol-LLM 7B	4 GB	Çok İyi (TR-finetune)	Apache 2.0

Donanım Önerileri

Küçük (7-8B model, 1-5 kullanıcı)

16 GB RAM, 8-12 GB VRAM (RTX 3060, 4060)
Tahmini yatırım: 25.000 - 40.000 TL
Yanıt: 30-50 token/saniye

Orta (13-32B model, 5-30 kullanıcı)

32 GB RAM, 24 GB VRAM (RTX 3090, 4090, A5000)
Tahmini yatırım: 80.000 - 130.000 TL
Yanıt: 20-40 token/saniye

Büyük (70B+ model, 30+ kullanıcı)

64-128 GB RAM, 80 GB+ VRAM (2× A100 80GB veya 4× RTX 6000)
Tahmini yatırım: 500.000 TL +
Yanıt: 15-30 token/saniye

Sadece CPU (Yavaş Test)

AMD Ryzen 9 / Intel i9 + 64 GB RAM
Yanıt: 3-8 token/saniye (yavaş ama mümkün)

Kurulum Yöntemleri

1. Ollama (En Kolay)

Tek satırla model çalıştırma:

curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b
ollama run llama3.1:8b

OpenAI uyumlu API sağlar (port 11434), drop-in replacement olarak mevcut kodda kullanılabilir.

2. vLLM (En Hızlı)

Yüksek throughput, paralel istek için ideal. PagedAttention ile bellek verimli:

pip install vllm
vllm serve meta-llama/Llama-3.1-8B-Instruct \\
  --host 0.0.0.0 --port 8000

3. llama.cpp (Düşük Donanım)

GGUF kuantizasyon ile CPU + GPU karma çıkarım. Q4_K_M ya da Q5_K_M kuantizasyon kalite/boyut dengesi için ideal:

./llama-server -m llama-3-8b-q4.gguf \\
  --host 0.0.0.0 --port 8080 -ngl 99

4. LocalAI (OpenAI Drop-in)

Mevcut OpenAI client kodunu hiç değiştirmeden çalıştırmak için:

docker run -p 8080:8080 -v models:/models \\
  localai/localai:latest llama-3-8b-instruct

RAG (Bilgi Bankası) ile Birleştirme

Yerel LLM + Vector DB (Qdrant, Weaviate, pgvector) + Embedding modeli (BGE-M3, multilingual-e5) ile şirket dökümanlarınızı AI'ın bilgi tabanı yapın. Hibrit arama (semantik + anahtar kelime + reranker) ile yüksek doğruluk.

Güvenlik & İzleme

JWT / API key authentication
Prompt injection filtreleri
PII (kişisel veri) maskeleme
Prometheus + Grafana ile metrik izleme
OpenTelemetry ile prompt logging
Rate limiting ve abuse protection

RFSoftwareSolution Yerel AI Hizmetleri

Donanım önerisi, model seçimi, kurulum, RAG, entegrasyon ve eğitim — tüm süreç tek bir partnerle. Detaylar için AI & Yerel AI Kurulum sayfamıza göz atın veya ücretsiz danışmanlık talep edin.

Etiket: yerel-ai ollama vllm llama kvkk on-premise

Yerel AI Kurulumu (On-Premise LLM): Ollama, vLLM ve Llama 3 Rehberi