INSIGHTS
한국어 RAG, Chunking부터 Re-ranking까지 실전 가이드
한국어 RAG가 영어보다 어려운 이유와 Chunking·Hybrid Search·Re-ranking 단계별 실전 노하우.
2026 · 인지하다 인사이트
한국어 RAG는 영어보다 1.5배 어렵습니다.
이유 — 어절·조사·띄어쓰기 변동, 동음이의어, 짧은 명사 위주 검색 쿼리. 영어용 표준 RAG 파이프라인을 그대로 한국어에 쓰면 적합도가 50% 아래로 떨어집니다. 인지하다가 50+ 한국어 RAG 프로젝트에서 정리한 실전 노하우.
1. Chunking — 의미 단위로 자르기
고정 토큰 수로 자르지 마세요. 한국어 문장은 끝이 명확합니다 (“니다”, “어요”, “.”) — 문장 경계 + 의미 단위 (산업 권장: chunk_size 400–512, overlap 10–20%)로 자르고, 인접 청크를 50토큰씩 오버랩. 표·리스트는 단위 보존.
2. Embedding — 한국어 모델 우선
OpenAI text-embedding-3는 한국어가 약합니다. 추천:
- Solar Embedding (Upstage) — 한국어 검색 SOTA. 벤치마크상 Recall@50에서 가장 높은 성능 보고됨
- BGE-M3 (BAAI) — 다국어, 1024 차원. 한국어 retrieval 강세
- KURE (고려대학교 NLP & AI 연구실) — 한국어 검색 특화 오픈소스. Hugging Face 공개
3. Hybrid Search — Dense + Sparse 필수
한국어는 “삼성전자”가 “삼성”, “전자”로 분리되어 임베딩되면 의미 손실. Dense (의미) + BM25 (키워드) 결합으로 정확도 +15%p. RRF (Reciprocal Rank Fusion)로 결합.
4. Re-ranking — 가장 큰 임팩트
Top 100 후보를 Cross-encoder로 다시 랭킹. 이 한 단계가 적합도 가장 크게 올림 (+20%p 사례). 추천 모델:
- Cohere Rerank v3 (다국어)
- BGE Reranker (오픈소스)
5. Citation — 답변 신뢰도
모든 답변에 출처 청크 인용 의무화. 환각 방지의 핵심. 사용자 UI에 클릭 가능한 인용 표시.
벤치마크 결과 (산업 사례 기준)
한국어 RAG 최적화 전후 비교 (산업 사례 기준):
- 적합도 (Recall@5): 50%대 → 90%대 (한국어 최적화 적용)
- 환각률: 큰 폭 감소 (인용 RAG + Re-ranking 적용)
- 응답 시간: 캐시·최적화로 단축 가능
피해야 할 함정
- 토큰 수 고정 청킹 (의미 깨짐)
- 영어 임베딩 모델 그대로 사용
- Sparse search 무시
- Re-ranking 생략 (“Embedding으로 충분”)
- Citation 없이 답변
인지하다는 한국어 RAG 자체 파이프라인을 보유합니다. 우리 문서 RAG 적합성 진단 →