인지하다


INSIGHTS

한국어 RAG, Chunking부터 Re-ranking까지 실전 가이드

한국어 RAG가 영어보다 어려운 이유와 Chunking·Hybrid Search·Re-ranking 단계별 실전 노하우.

2026 · 인지하다 인사이트

한국어 RAG는 영어보다 1.5배 어렵습니다.

이유 — 어절·조사·띄어쓰기 변동, 동음이의어, 짧은 명사 위주 검색 쿼리. 영어용 표준 RAG 파이프라인을 그대로 한국어에 쓰면 적합도가 50% 아래로 떨어집니다. 인지하다가 50+ 한국어 RAG 프로젝트에서 정리한 실전 노하우.

1. Chunking — 의미 단위로 자르기

고정 토큰 수로 자르지 마세요. 한국어 문장은 끝이 명확합니다 (“니다”, “어요”, “.”) — 문장 경계 + 의미 단위 (산업 권장: chunk_size 400–512, overlap 10–20%)로 자르고, 인접 청크를 50토큰씩 오버랩. 표·리스트는 단위 보존.

2. Embedding — 한국어 모델 우선

OpenAI text-embedding-3는 한국어가 약합니다. 추천:

  • Solar Embedding (Upstage) — 한국어 검색 SOTA. 벤치마크상 Recall@50에서 가장 높은 성능 보고됨
  • BGE-M3 (BAAI) — 다국어, 1024 차원. 한국어 retrieval 강세
  • KURE (고려대학교 NLP & AI 연구실) — 한국어 검색 특화 오픈소스. Hugging Face 공개

3. Hybrid Search — Dense + Sparse 필수

한국어는 “삼성전자”가 “삼성”, “전자”로 분리되어 임베딩되면 의미 손실. Dense (의미) + BM25 (키워드) 결합으로 정확도 +15%p. RRF (Reciprocal Rank Fusion)로 결합.

4. Re-ranking — 가장 큰 임팩트

Top 100 후보를 Cross-encoder로 다시 랭킹. 이 한 단계가 적합도 가장 크게 올림 (+20%p 사례). 추천 모델:

  • Cohere Rerank v3 (다국어)
  • BGE Reranker (오픈소스)

5. Citation — 답변 신뢰도

모든 답변에 출처 청크 인용 의무화. 환각 방지의 핵심. 사용자 UI에 클릭 가능한 인용 표시.

벤치마크 결과 (산업 사례 기준)

한국어 RAG 최적화 전후 비교 (산업 사례 기준):

  • 적합도 (Recall@5): 50%대 → 90%대 (한국어 최적화 적용)
  • 환각률: 큰 폭 감소 (인용 RAG + Re-ranking 적용)
  • 응답 시간: 캐시·최적화로 단축 가능

피해야 할 함정

  1. 토큰 수 고정 청킹 (의미 깨짐)
  2. 영어 임베딩 모델 그대로 사용
  3. Sparse search 무시
  4. Re-ranking 생략 (“Embedding으로 충분”)
  5. Citation 없이 답변

인지하다는 한국어 RAG 자체 파이프라인을 보유합니다. 우리 문서 RAG 적합성 진단 →

NEXT STEP

우리 회사에도 적용해 보고 싶다면?

30분 무료 Discovery 미팅에서 적합성을 함께 점검합니다.

미팅 신청 →