← koiro.me

RAG Evaluation RAGAS Agentic-RAG

2024년 RAG가 프로덕션에 본격 올라오면서, 2026년 현재는 "어떻게 평가할 것인가"가 구축 못지않게 중요해졌다. 검색-생성 정렬, 컨텍스트 신뢰성, Agentic RAG 평가까지 — 2026년 4월 기준 최신 연구와 실무 기준을 정리한다.

2024 → 2026: 무엇이 바뀌었나

항목2024년2026년
평가 축검색 + 생성검색 + 생성 + 컨텍스트 신뢰성
신규 메트릭nDCG, Precision@K, Hit Rate+ CUE, Citation Coverage, Tool Selection Accuracy
평가 대상일반 RAG+ Agentic RAG, GraphRAG, Hybrid RAG
평가 방법LLM-as-Judge 도입 초기차원별 격리 평가 + 비용 최적화 표준화
CI/CD 통합수동 위주품질 게이트 자동화 사실상 표준
발견된 사각지대알려지지 않음Pragmatic Misleading, Accuracy Fallacy

핵심 흐름은 하나다. “얼마나 잘 검색했는가 + 얼마나 잘 생성했는가"에서, 검색-생성 간 정렬이 얼마나 잘 됐는가검색된 정보 자체가 믿을 수 있는가 로 관심사가 이동하고 있다.


핵심 5대 메트릭과 프로덕션 임계값

JMLR 발표 연구에 따르면 검색 정확도만으로는 RAG 품질 분산의 60%만 설명된다. 나머지 40%는 모델이 검색된 컨텍스트를 얼마나 잘 활용하는가에서 온다.

메트릭측정 대상권장 임계값낮을 때 진단
Faithfulness생성0.8+ (규제 산업 0.9+)모델이 학습 지식으로 검색 공백을 메우는 중
Answer Relevance생성0.75+관련 있지만 정확하지 않은 청크가 검색되는 중
Context Precision검색0.7+재정렬(re-ranking) 단계 필요
Context Recall검색0.75+청크 크기가 너무 작거나 top-K가 너무 낮음
Hallucination Rate생성<5%최근 문서 수집 품질 점검 필요
Faithfulness 0.6이라는 점수는 답변 진술의 약 40%가 검색된 내용에 근거가 없다는 뜻이다. 가장 엄격한 의미에서의 hallucination이다.

프로덕션 모니터링 알람 기준

메트릭알람 임계값점검 사항
Faithfulness (샘플링)< 0.75최근 문서 수집 품질
Answer Relevance (샘플링)< 0.70쿼리 분포 변화
Hallucination Rate> 5%신규 쿼리 유형 커버리지
P95 Retrieval Latency> 500ms인덱스 크기, 임베딩 모델 부하
Context Utilization< 40%청크 크기, 오버랩 설정 (2026 신규)
User Negative Feedback Rate> 10%위 항목 전체 점검

2026년 주요 신규 연구

RAG-E (2026.01) — 검색기-생성기 정렬 측정

TREC CAsT와 FoodSafeSum 실증 분석 결과가 충격적이다.

  • 47.4~66.7% 의 쿼리에서 생성기가 검색기의 최상위 문서를 무시
  • 48.1~65.9% 는 낮은 순위 문서에 의존

검색기와 생성기를 따로 평가하는 것만으로는 부족하다. 두 컴포넌트 간 “정렬(alignment)“이 독립적인 평가 차원으로 다뤄져야 한다.

RAG-X (2026.03) — 의료 QA 진단 프레임워크

Context Utilization Efficiency(CUE) 라는 신규 메트릭을 제안했다.

“최고 성능 RAG 파이프라인 평가 결과, 검색된 증거의 22%가 중복으로 컨텍스트 윈도우를 낭비하고 있었다.”

핵심 개념은 ‘Accuracy Fallacy’ — 시스템이 매우 정확해 보이지만 실제로는 grounding되지 않은 시나리오다. CUE는 검색된 컨텍스트 중 실제로 답변에 기여한 비율을 측정해 이를 드러낸다.

SoK: Agentic RAG (2026.03)

“전통적 메트릭은 ’engine’(LLM의 최종 텍스트 출력)을 평가한다. 에이전틱 평가는 ‘car’(계획, 도구 사용, 환경 상호작용 전반의 시스템 동작)를 평가해야 한다.”

BLEU, ROUGE 같은 메트릭은 어휘적 중첩에 초점을 맞춘다. 에이전틱 시스템의 반복적이고 상호작용적인 동작을 포착하지 못한다.


RAG의 6가지 근본 실패 모드

수십 개의 실제 RAG 구현 분석 결과, 무수히 많은 방식이 아닌 정확히 6가지 방식으로 실패하는 것으로 나타났다.

  1. 잘못된 검색 — 관련 없는 문서를 가져옴
  2. 나쁜 랭킹 — 관련 문서는 있지만 순위가 낮아 반영 안 됨
  3. 컨텍스트 과부하 — 컨텍스트가 너무 많아 모델이 핵심을 놓침
  4. 오래된 지식 — 인덱스가 최신 상태가 아님
  5. 평가 사각지대 — 메트릭 자체의 한계
  6. 검색-생성 불일치 — 검색은 좋지만 생성이 이를 무시

표준 RAG의 사각지대

“Pragmatically Misleading” 문제

2025년 연구에서 Microsoft Copilot이 가장 자주 처방되는 50개 약물 관련 질문 중 26%에서 의학적으로 잘못되거나 잠재적으로 해로운 조언을 제공했다.

더 심각한 건 별도 연구 결과다. RAG 시스템이 환각 없이 정확한 출처를 인용할 때조차 “실용적으로 오도하는” 상태를 유지할 수 있다 — 사실을 탈맥락화하거나, 중요한 출처를 누락하거나, 오해를 강화하는 방식으로.

일반적인 RAG 메트릭(faithfulness, relevance)은 이런 출력을 '통과'로 점수 매길 것이다. 도메인 전문가는 그렇지 않을 것이다.

컨텍스트 신뢰성 — 5번째 평가 차원

표준 메트릭 4가지는 신뢰할 수 있는 인덱스를 가정한다. 하지만 인덱스 자체의 신뢰성 — 소유권, 신선도, 계보 무결성 — 은 평가하지 않는다.

시스템이 faithfulness 0.95를 받고도, 검색된 콘텐츠가 오래됐거나 정식 출처와 정렬되지 않으면 잘못된 답변을 반환한다.


2026년 평가 도구 선택 가이드

프레임워크최적 용도CI/CD 통합라이선스
Ragas빠른 실험, 표준 메트릭수동 설정Apache 2.0
DeepEvalCI/CD 테스트, 프로덕션 게이트pytest 네이티브MIT
TruLens개발 시점 모니터링, A/B 실험미지원MIT
Maxim AI종합 플랫폼자동 추적상업용
Phoenix관찰성 중심가능오픈소스

실무 권장 조합:

  • CI/CD 품질 게이트 → DeepEval
  • 초기 메트릭 탐색 + 합성 데이터셋 생성 → Ragas
  • 프로덕션 모니터링 → TruLens 또는 Langfuse

흔한 실수 5가지

1. 동일한 모델로 생성하고 평가하기 GPT-4o가 답변을 생성하고 점수까지 매기면 점수가 부풀려진다. Judge 모델은 다른 모델이나 다른 크기를 쓸 것.

2. 컴포넌트별 평가 건너뛰기 종단간 정확성은 “무언가 잘못됐다"는 것만 알려준다. 검색과 생성 메트릭을 분리해야 어디가 문제인지 알 수 있다.

3. 프롬프트 최적화에 평가 메트릭 사용하기 메트릭은 품질을 추적하는 도구다. 최적화 목적으로 사용하면 메트릭을 게임하게 된다.

4. 단일 프롬프트로 여러 차원 동시 평가 컨텍스트 관련성, faithfulness, 답변 관련성을 하나의 LLM 호출로 평가하지 말 것. 차원별 격리된 루브릭이 더 일관된 결과를 낸다.

5. 합성 데이터셋의 인간 검토 생략 LLM은 사실 오류를 포함하거나 존재하지 않는 콘텐츠를 참조하는 그럴듯한 테스트 케이스를 만든다.


참고 자료