OpenAI ve Anthropic gibi bulut AI'lar güçlü ama; verileriniz dışarı çıkar, KVKK/GDPR riski oluşur, internet bağlantısı gerekir ve sürekli token ücreti ödersiniz. Yerel (on-premise) AI kurulumu bu sorunların hepsini çözer: kendi sunucunuzda çalışır, veriler içeride kalır, tek seferlik donanım yatırımı sonrası kullanım sınırsızdır. Bu rehberde Ollama, vLLM ve llama.cpp ile yerel LLM kurulumunu adım adım anlatıyoruz.
| Model | Boyut | Türkçe | Lisans |
|---|---|---|---|
| Llama 3.3 70B | 40 GB | İyi | Llama 3 Custom |
| Llama 3.1 8B | 4.7 GB | Orta | Llama 3 Custom |
| Qwen 2.5 32B | 20 GB | İyi | Apache 2.0 |
| Mistral Small 22B | 13 GB | Orta-İyi | Apache 2.0 |
| Gemma 2 9B | 5 GB | Orta | Gemma License |
| Trendyol-LLM 7B | 4 GB | Çok İyi (TR-finetune) | Apache 2.0 |
Tek satırla model çalıştırma:
curl -fsSL https://ollama.com/install.sh | sh ollama pull llama3.1:8b ollama run llama3.1:8b
OpenAI uyumlu API sağlar (port 11434), drop-in replacement olarak mevcut kodda kullanılabilir.
Yüksek throughput, paralel istek için ideal. PagedAttention ile bellek verimli:
pip install vllm vllm serve meta-llama/Llama-3.1-8B-Instruct \\ --host 0.0.0.0 --port 8000
GGUF kuantizasyon ile CPU + GPU karma çıkarım. Q4_K_M ya da Q5_K_M kuantizasyon kalite/boyut dengesi için ideal:
./llama-server -m llama-3-8b-q4.gguf \\ --host 0.0.0.0 --port 8080 -ngl 99
Mevcut OpenAI client kodunu hiç değiştirmeden çalıştırmak için:
docker run -p 8080:8080 -v models:/models \\ localai/localai:latest llama-3-8b-instruct
Yerel LLM + Vector DB (Qdrant, Weaviate, pgvector) + Embedding modeli (BGE-M3, multilingual-e5) ile şirket dökümanlarınızı AI'ın bilgi tabanı yapın. Hibrit arama (semantik + anahtar kelime + reranker) ile yüksek doğruluk.
Donanım önerisi, model seçimi, kurulum, RAG, entegrasyon ve eğitim — tüm süreç tek bir partnerle. Detaylar için AI & Yerel AI Kurulum sayfamıza göz atın veya ücretsiz danışmanlık talep edin.