GÜNDEM

2026’da üretim RAG’i: melez erişim, yeniden sıralama ve halüsinasyonu azaltmak

18 Haziran 20265 dk okuma

Çoğu RAG sistemi modelde değil, erişimde başarısız olur. 2026 üretim yığını için bir saha rehberi — melez arama, Reciprocal Rank Fusion, cross-encoder yeniden sıralama, kaynaklı atıflar ve değerlendirme — ve egemen ekiplerin bunların hepsini neden kendi çeperinde çalıştırdığı.

Bir RAG demosu üç adımdır — gömme, erişim, üretim. Üretimdeki bir RAG sistemi ise dokuz aşamalı bir zincirdir: alma, ayrıştırma, parçalama, gömme, dizinleme, erişim, yeniden sıralama, üretim ve ardından atıf ile değerlendirme. Uygulayıcıların tekrar tekrar keşfettiği rahatsız edici gerçek şu: başarısızlıkların çoğu dil modelinden gelmez. Erişimden ve onu besleyen ayrıştırma katmanından gelir.

Doğruluk neden erişimde sızar

Saf anlamsal (vektör) arama belirli bir kör noktaya sahiptir: birebir token’lar. “TS-999 hata kodu”nu sorun; gömme modeli hata kodları hakkında genel içeriği memnuniyetle döndürürken tam dizgeyi kaçırabilir. Aynı şey stok kodları, sipariş numaraları, parça numaraları ve kısaltmalar için de geçerlidir — tam da insanların yazdığı ve sesli okuduğu şeyler. Gömmeler anlamı yakalar; eğitimde hiç görmedikleri nadir tanımlayıcılarda güvenilmezdir.

Melez arama, RRF ile birleştirilmiş

Yerleşik çözüm melez erişimdir: birebir token eşleştiren 1970’lerden kalma olasılıksal bir sıralayıcı olan BM25’i yoğun vektör aramasıyla birlikte çalıştırın, sonra ikisini birleştirin. Reciprocal Rank Fusion (Cormack ve ark., SIGIR 2009) bu birleştirmeyi tek satırlık, skordan bağımsız bir formülle ve standart k=60 sabitiyle yapar; saf ağırlıklandırmanın uyumsuz-skor-ölçeği sorununu aşar. Karışık, gerçek dünya sorgularında alıntılanan uygulamalar, recall’un tek yöntemle yaklaşık %65–78’den iki yöntem birleştirildiğinde yaklaşık %91’e çıktığını bildiriyor. (Yalnızca anahtar kelime ya da yalnızca anlamsal bir iş yükünde tek yöntem yetişebilir; melez, çeşitlilikte kazanır.)

Parçalama bir erişim kararıdır, ön işleme değil

Belgeleri nasıl böldüğünüz, hangi gömme modelini seçtiğinizden daha çok doğruluğu belirler. Üst üste binmeli ~512 token’lık sabit parçalar eski varsayılandır; düzen-farkında ve anlamsal parçalama daha iyisini yapar. 2024’ten iki teknik her parçaya tüm-belge bağlamı kazandırır: Anthropic’in Contextual Retrieval’i (bir LLM her parça için 50–100 token bağlam yazar; kendi değerlendirmelerinde bağlamsal gömmeler artı BM25 ilk-20 erişim hatalarını yaklaşık %49, yeniden sıralama eklenince yaklaşık %67 azalttı — %5,7’lik bir tabandan) ve late chunking (önce tüm belgeyi gömer, sonra yalnızca gömme modeliyle parça bazında havuzlar — daha ucuz, ek LLM çağrısı yok).

En yüksek getirili adım: yeniden sıralama

Erişimden sonra elinizde hızlı ama kayıplı bir kısa liste vardır. Bir cross-encoder yeniden sıralayıcı, ilk ~100–150 adayı, sorgu ile her belgeyi tam çapraz-dikkatle birlikte okuyarak yeniden puanlar — bağımsız vektörleri karşılaştırmaktan çok daha hassas ve tüm külliyat üzerinde çalıştırılamayacak kadar pahalı; iki aşamanın tüm nedeni budur. Bildirilen kazanımlar ~50–100 ms ek gecikme karşılığında %10–30 dolayında hassasiyet artışıdır ve anahtar kelime örtüşmesinin zayıf bir uygunluk göstergesi olduğu hukuk, sağlık ve finansta en büyüktür. 2024–2025 yeniden sıralayıcıları (Cohere Rerank 3.5 ve 4, Voyage rerank-2.5, BGE reranker v2-m3, Jina, Mixedbread) uzun bağlam — 32K token’a kadar — ve talimat-izleme ekledi; veriyi şirket içinde tutmanız gerektiğinde açık-ağırlıklı olanlar önemlidir.

Bu iki aşamalı yapı — önce gömme, sonra yeniden sıralama — kendi VeriRAG ailemizin neden yalnızca birini değil, hem gömmeleri hem yeniden sıralamayı sunduğunun ta kendisidir.

Dayandırma halüsinasyonu azaltır; asla yok etmez

Modele yalnızca en üstteki yeniden sıralanmış pasajları verin ve satır içi atıf zorunlu kılın. Bu, uydurmayı ölçülebilir biçimde azaltır ve token’ı kısar — ama sıfıra inmez. Vectara’nın dayandırılmış-özet sıralamasında en iyi modeller hâlâ yaklaşık %1,8–3, zayıf olanlar %20’nin üzerinde halüsinasyon görür; atıf eğitimi olmadan atıf doğruluğu %65–70 civarındadır, yani bir model yanlış parçayı özgüvenle gösterebilir. Erişim gereklidir ama yeterli değildir: daha iyi recall, otomatik olarak doğru yanıt demek değildir.

İki aşamayı da ölçün, yoksa tahmin yürütürsünüz

Değerlendirmeyi kalıcı bir dağıtım kapısı olarak ele alın ve iki ayrı skor tablosu tutun. Erişim metrikleri (recall@k, NDCG) doğru kanıtın bulunup bulunmadığını; üretim metrikleri (faithfulness, bağlam precision ve recall) yanıtın onu gerçekten kullanıp kullanmadığını söyler. RAGAS gibi referanssız çerçeveler bir yanıtı atomik iddialara böler ve her birini erişilen bağlama karşı denetler. Bunlar kendi gürültüsü olan LLM-temelli tahmincilerdir; bu yüzden insan örnek-denetimleri ve sabit bir altın kümeyle eşleştirin, jüri modelini sürümleyin.

Bir milyon token’lık bağlam penceresi RAG’i geçersiz kılar mı?

Hayır — 2026 mutabakatı değiştirme değil, yönlendirmedir. Uzun bağlamın gerçek başarısızlık modları vardır: ilgili pasaj başta ya da sonda olduğunda doğruluğun zirve yapıp ortada düştüğü “ortada kaybolma” etkisi; ve ilan edilen azami değerin çok altında bozulan etkili recall. Ayrıca sorgu başına erişimden çok daha yavaş ve pahalıdır. Ve büyük bir pencere üç şeyi asla çözmez: tazelik (eski bağlam, güncel bağlam kadar özgüvenle puanlanır), belge bazında erişim denetimi ve ölçekte maliyet. Bilinen bir belge üzerinde derin akıl yürütmek için uzun bağlamı; külliyat büyük, değişken veya izne tabi olduğunda RAG’i kullanın — çoğu zaman ikisini birden istersiniz.

Çoğu rehberin atladığı kısım: belgeleriniz binayı terk eder

Yukarıdaki her aşama bir üçüncü-taraf API çağrısı olabilir ve her biri en hassas belgelerinizi kutu dışına gönderir. Ham metni barındırılan bir gömme hizmetine göndermek, bu belgeleri istek anında ifşa eder — “yalnızca vektörler çıkar” bir güvenlik garantisi değildir. Regüle veri için kalıcı mimari, tüm yığını kendi çeperinizde çalıştırır: açık gömme ve yeniden sıralama modelleri, kendi sunucunuzda bir vektör deposu, açık-ağırlıklı çıkarım. Ve izin-farkında erişim, erişim katmanında olmalıdır — parçaları dizinleme anında erişim meta verisiyle etiketleyin ve sorguda kullanıcı bazında filtreleyin — çünkü uygulama katmanı filtrelemesi, kullanıcının görmeye hiç yetkili olmadığı bir belgeden kaynaklı doğru bir yanıt döndürebilir.

Arpanet bu resmin neresinde

Tam da bu yapı için inşa ediyoruz. VeriRAG ailemiz erişim yarısını — gömmeler ve yeniden sıralama — kapsar; OpenAI-uyumlu ağ geçidimiz Qevron ise üretimi, kendi şirket içi modellerimiz ve 43+ sağlayıcı arasında önbellekleme, yönlendirme ve maliyet analiziyle tek bir API’nin arkasına koyar. Calleague gibi ürünler bu hattın aynısını — melez erişim, yeniden sıralama, kaynaklı atıflar — gerçek iş yüklerinde çalıştırır. Ve modeller ile ağ geçidi bizim olduğu için tüm RAG yığını yerinde, tamamen izole veya bulutta çalışabilir; böylece belgeleriniz çeperinizi terk etmek zorunda kalmaz. Tasarımdan itibaren KVKK ve GDPR için mühendislik edildi.

Daha iyi erişim — daha büyük bir model değil — satın alabileceğiniz en ucuz doğruluktur ve kendi duvarlarınızın içinde tutabileceğiniz tek doğruluk türüdür.

2026’da RAG bir istem değil, bir mühendislik disiplinidir. Erişimi doğru yapın, kısa listeyi yeniden sıralayın, her yanıtı kaynaklı kanıta dayandırın, iki aşamayı da ölçün — ve belgelerinizin kimin sunucularında çalışacağına bilinçle karar verin.

Tüm yazılar