RAG ve Vektör Veritabanları ile Akıllı Chatbotlar Oluşturma: Pratik Bir Geliştirici Rehberi

Son güncelleme: 24 Şubat 2026 23:10

Büyük dil modellerinin (LLM) var olmayan bir gerçeği güvenle yanlış anlaması gibi bir durumla karşılaştıysanız, Retrieval-Augmented Generation (RAG) modelinin çözmeye çalıştığı temel sorunu anlayacaksınız. LLM’ler mükemmel genelciler, ancak bir zaman diliminde donmuş durumdalar ve özel verilerinizi göremezler. RAG, bu durumu tamamen değiştiriyor ve bir vektör veritabanıyla birleştirildiğinde, yalnızca akıcı değil, gerçekten bilgili sohbet botları elde ediyorsunuz.

<p>Bu makalede, bir RAG destekli sohbet botunun mimarisine göz atacağız, ana bileşenleri gerçek kodlarla uygulayacağız ve bu yaklaşımın üretim ortamlarında nerelerde öne çıktığını tartışacağız.</p>

<h2>
    <a name="what-is-rag-and-why-does-it-matter" href="#what-is-rag-and-why-does-it-matter"></a>
    RAG Nedir ve Neden Önemlidir?
</h2>

<p>Retrieval-Augmented Generation, yalnızca LLM'nin önceden eğitilmiş bilgisine bağlı kalmak yerine, önce dış bir bilgi kaynağından ilgili bağlamı almak ve bunu isteme eklemek için kullanılan bir modeldir. Model, bu alınan bilgilere dayalı bir yanıt üretir.</p>

<p>Bu, üç gerçek sorunu çözer:</p>

<ul>
    <li>
        <strong>Hallucination</strong> — Model, tahminde bulunmak yerine alınan gerçeği kullanarak akıl yürütür.
    </li>
    <li>
        <strong>Knowledge cutoff</strong> — Sohbet botunuz, modelin eğitiminden sonraki olaylar veya belgeler hakkında soruları yanıtlayabilir.
    </li>
    <li>
        <strong>Private data</strong> — İçi boşlamadan, iç dokümantasyon, destek biletleri veya ürün katalogları üzerine sohbet botları kurabilirsiniz.
    </li>
</ul>

<h2>
    <a name="the-core-architecture" href="#the-core-architecture"></a>
    Temel Mimari
</h2>

<p>Bir RAG süreci iki ayrı aşamadan oluşur:</p>

<ol>
    <li>
        <strong>Indexing</strong> — Belgeler parçalara ayrılır, vektör gömme yapılır ve bir vektör veritabanında saklanır.
    </li>
    <li>
        <strong>Querying</strong> — Çalışma sırasında, kullanıcının sorgusu gömülür, benzerlik araması en ilgili parçaları alır ve bunlar LLM'ye bağlam olarak geçirilir.
    </li>
</ol>

<div class="highlight js-code-highlight">
    <pre class="highlight plaintext"><code>User Query → Embed Query → Vector Search → Top-K Chunks → LLM Prompt → Response

<h2>
    <a name="setting-up-the-vector-database" href="#setting-up-the-vector-database"></a>
    Vektör Veritabanını Kurma
</h2>

<p>Bu örnekte, vektör deposu olarak <strong>Qdrant</strong> ve gömme için OpenAI'nin <code>text-embedding-3-small</code> modelini kullanacağız. Qdrant, açık kaynak kodlu, temiz bir REST API'ye sahip ve Docker'da çalışması kolay bir seçenek.<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight shell"><code>docker run -p 6333:6333 qdrant/qdrant

<p>Ardından, bir koleksiyon oluşturun:<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight python"><code>from qdrant_client import QdrantClient

from qdrant_client.models import Distance, VectorParams

client = QdrantClient(host=”localhost”, port=6333)

client.create_collection(
collection_name=”knowledge_base”,
vectors_config=VectorParams(size=1536, distance=Distance.COSINE),
)

<h2>
    <a name="indexing-your-documents" href="#indexing-your-documents"></a>
    Belgelerinizi İndeksleme
</h2>

<p>Belgelerin parçalara ayrılması ile ilgili strateji, çoğu geliştiricinin beklediğinden daha önemlidir. Çok büyük parçalar oluşturursanız, alaka düzeyini seyreltmiş olursunuz; çok küçük parçalar oluştursanız, bağlamı kaybedersiniz. 512-token'lık bir parça ve 50-token'lık bir örtüşme başlangıç için makul bir noktadır.<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight python"><code>import openai

from qdrant_client.models import PointStruct
from uuid import uuid4

def chunk_text(text: str, chunk_size: int = 512, overlap: int = 50) -> list[str]:
words = text.split()
chunks = []
start = 0
while start < len(words):
end = start + chunk_size
chunks.append(” “.join(words[start:end]))
start += chunk_size – overlap
return chunks

def embed_and_store(document: str, metadata: dict):
chunks = chunk_text(document)
points = []

for chunk in chunks:
    response = openai.embeddings.create(
        model="text-embedding-3-small",
        input=chunk
    )
    embedding = response.data[0].embedding

    points.append(PointStruct(
        id=str(uuid4()),
        vector=embedding,
        payload={"text": chunk,  metadata}
    ))

client.upsert(collection_name="knowledge_base", points=points)

<h2>
    <a name="querying-retrieval-generation" href="#querying-retrieval-generation"></a>
    Sorgulama: Retrieval + Generation
</h2>

<p>Sorgulama aşamasında, kullanıcının mesajını gömüyor, en yakın komşu aramasını gerçekleştiriyor ve alınan parçaların bağlamı içeren bir istem oluşturuyoruz.<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight python"><code>def retrieve(query: str, top_k: int = 5) -> list[str]:
response = openai.embeddings.create(
    model="text-embedding-3-small",
    input=query
)
query_vector = response.data[0].embedding

results = client.search(
    collection_name="knowledge_base",
    query_vector=query_vector,
    limit=top_k
)
return [hit.payload["text"] for hit in results]

def answer(query: str) -> str:
context_chunks = retrieve(query)
context = “\n\n”.join(context_chunks)

prompt = f"""You are a helpful assistant. Answer the question using only the context below.

If the answer isn’t in the context, say you don’t know.

Context:
{context}

Question: {query}
Answer:”””

response = openai.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": prompt}]
)
return response.choices[0].message.content

<p>RAG'nin kalbi burada bulunuyor — ve burada her şey kurulum yapıldıktan sonra oldukça basit.</p>

<h2>
    <a name="integrating-rag-into-a-laravel-application" href="#integrating-rag-into-a-laravel-application"></a>
    RAG'yi Laravel Uygulamasına Entegre Etme
</h2>

<p>TALL yığını üzerinde çalışıyorsanız, bu Python hizmetini bir REST API aracılığıyla yayabilir ve Laravel'den <code>Http::post()</code> ile çağırabilirsiniz. Alternatif olarak, <code>openai-php/client</code> gibi kütüphaneleri PHP yerel bir vektör istemcisiyle birleştirerek tüm yığınınızı PHP'de tutabilirsiniz.</p>

<p>Son bir müşteri projesinde, <a href="https://hanzweb.ae" target="_blank" rel="noopener noreferrer">www.hanzweb.ae</a> ekibi, Laravel'i orkestra katmanı olarak kullandı — kimlik doğrulama, hız sınırlama ve sohbet geçmişi yönetilirken, gömme ve alma işlemleri için özel bir Python mikro hizmetine devrederek. Bu sorumluluk ayrımı, Laravel uygulamasının düzenli kalmasını sağlıyor ve ML bileşenlerinin bağımsız ölçeklenmesine olanak tanıyor.<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight php"><code>// Laravel controller method

public function chat(Request $request): JsonResponse
{
$query = $request->validate([‘message’ => ‘required|string|max:1000’])[‘message’];

$response = Http::timeout(30)->post(config('services.rag.endpoint') . '/answer', [
    'query' => $query,
    'session_id' => auth()->id(),
]);

return response()->json([
    'answer' => $response->json('answer'),
]);

}

<h2>
    <a name="production-considerations" href="#production-considerations"></a>
    Üretim Dikkate Alınacak Hususlar
</h2>

<h3>
    <a name="hybrid-search" href="#hybrid-search"></a>
    Hibrit Arama
</h3>

<p>Pür vektör benzerliği her zaman yeterli değildir. Yoğun vektör aramasını BM25 anahtar kelime araması ile birleştirmek (hibrit arama) kesinliği önemli ölçüde artırır, özellikle özel isimler, ürün kodları veya belirli terminoloji içeren sorgular için. Qdrant bunu yerel olarak destekler.</p>

<h3>
    <a name="reranking" href="#reranking"></a>
    Yeniden Sıralama
</h3>

<p>En yüksek K parçaları elde edildikten sonra, bunların bir çapraz kodlayıcı yeniden sıralayıcıdan (Cohere'in Rerank API'si veya yerel bir model gibi) geçirilmesi gerekir. Bu ikincil geçiş, parçaları sorguyla ilişkili olarak çok daha yüksek bir doğrulukla yeniden puanlar.</p>

<h3>
    <a name="chunking-strategy-revisited" href="#chunking-strategy-revisited"></a>
    Parçalama Stratejisi Gözden Geçirildi
</h3>

<p>SSS'ler gibi yapılandırılmış belgeler için, <strong>anlamsal parça ayırma</strong> — anlamlı sınırlarla (sorular, bölümler) kesim yapmak, sadece ham token sayılarına göre bölmek yerine — düşünülmelidir. Parçalarınızın kalitesi, cevap kalitesinin tek en büyük faktörüdür.</p>

<h3>
    <a name="guardrails" href="#guardrails"></a>
    Güvenlik Önlemleri
</h3>

<p>Modelinize, sağladığınız bağlam dışındaki soruları reddetmesini her zaman bildirin. Bunu yapmazsanız, LLM kendi parametre bilgi havuzuna geri dönecek ve RAG'nın amacını boşa çıkaracaktır.</p>

<h2>
    <a name="conclusion" href="#conclusion"></a>
    Sonuç
</h2>

<p>RAG bir gümüş mermi değildir, ancak doğru, denetlenebilir ve gerçekten işletim bağlamında kullanışlı sohbet botları oluşturmanın en pratik yoludur. Mimari erişilebilir — bir gömme modeli, bir vektör veritabanı ve iyi biçimlendirilmiş bir istemle başlamak için ihtiyacınız olan her şeydir. Gerçek ustalık ise, parçalara ayırma stratejisi, yeniden sıralama, hibrit arama ve tüm bunları bir araya getiren uygulama katmanında ortaya çıkıyor.</p>

<p>Küçük başlayın: tek bir belge koleksiyonunu indekse alın, alım döngüsünü oluşturun ve ölçeklenmeden önce cevap kalitesini ölçün. Bir demoyla üretim RAG sistemi arasındaki fark büyük ölçüde bu iterasyon döngüsüdür — ve her adım buna değiyor.</p>

Kaynak: Orijinal Makale

RAG ve Vektör Veritabanları ile Akıllı Chatbotlar Oluşturma: Pratik Bir Geliştirici Rehberi

Sanal Medya

Son Eklenenler

Kritik Uyarı: UNC3753’ün Vishing ve Fiziksel İhlalleriyle Veri Hırsızlığı

Yeni Bir Macera: Spyro Ejderha, 20 Yıl Sonra Geri Dönüyor

Kritik: VS Code, Tedarik Zinciri Saldırılarını Önlemek İçin Gecikme Getirdi

XRP Fiyatında Stabilizasyon: Dört Aylık Düşüklerin Üzerinde $1.10

5 Dakikada Üretime Hazır Bir Restoran POS Sistemi Oluşturma (Claude AI + Laravel)

Acil! Meta AI Destek Hatasıyla 20.000’den Fazla Instagram Hesabı Çalındı

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer