프로젝트 3 - 관광 활성화를 위한 거대 언어 모델 및 RAG 파이프라인 연구 후기
너무 오랜만에 돌아온 것 같습니다. 방학 기간 동안 회사 일이 너무 바빴습니다. (핑계 같겠지만...) 최근에는 회사별로 자사의 LLMOps 플랫폼을 갖추기 위해 많은 노력을 기하고 있는데 저희 회사도 그중 하나였습니다. 그래서 이번에 XGEN을 출시했습니다. ( 박수 ) 최근 몇몇 PoC에서도 좋은 결과를 얻고 있습니다. 많은 관심 부탁드립니다.
그리고 본론으로 들어가서, 작년 3~7월까지 이어진 연구를 통해 연구지원 프로그램 우수상을 수상했습니다. ( 말라가던 통장에 촉촉한 비를... )
앞선 프로젝트 1, 2에서 말씀드린 내용에 더해 전체 내용을 정리해 드리겠습니다.
1. 모델 후보 선정 과정
LLM을 활용할 때 파라미터 수가 너무 크면 컴퓨팅 자원이 과도하게 필요합니다. 특히 향후 온디바이스(On-device) 환경에서도 활용 가능해야 한다는 점에서 3B~4B 규모의 소형 모델을 후보로 선정하였습니다.
| 모델 | 특징 |
|---|---|
| naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B | 네이버 최신 모델, 한국어 및 관광 정보 안내에 강점 |
| meta-llama/Llama-3.2-3B-Instruct | Meta 오픈소스 모델, 다국어 성능 검증 |
| Bllossom/llama-3.2-Korean-Bllossom-3B | Llama-3.2를 한국어 특화 파인튜닝한 모델 |
| Gemma 3-4B-it | Google Gemma 최신 모델, 다국어 성능 강점 |
| Qwen/Qwen3-4B | Qwen 최신 모델, 다국어 전반 우수한 성능 기대 |
2. 한국어·일본어 및 번역 성능 검증
일본인 대상 관광 안내 시스템이 목표이므로 한국어와 일본어 양쪽 성능 검증이 필수적이었습니다. 온디바이스 활용 가능성을 위한 속도 검증도 함께 진행하였습니다.
- 한국어 성능 검증: MMLU_prox 데이터셋 활용
- 일본어 성능 검증: MMLU_prox 데이터셋 활용
- 속도 성능 비교: vLLM 벤치마크 스크립트 활용
원래는 BLEU 등 전통적인 번역 지표로 정량 측정을 시도했으나, 소형 모델의 특성상 제대로 측정되지 않아 해당 부분은 제외했습니다.
3. 결론 — 모델 선정
속도 면에서는 3B 모델 대비 다소 떨어졌으나, Qwen3-4B가 한국어·일본어 성능 모두에서 압도적으로 우수하여 최종 베이스 모델로 선정하였습니다.
| 모델 | 한국어 MMLU | 일본어 MMLU | |---|---|---| | Qwen3-4B | 53.34% | 55.10% | | 기타 후보 모델 | 36~47% 수준 | 36~47% 수준 |
4. 연구 진행 및 방법론
선정된 모델을 기반으로 관광 안내용 RAG(Retrieval-Augmented Generation) 파이프라인을 설계·구현했습니다.
데이터 전처리는 AI Hub의 K-Culture 관광 콘텐츠 특화 일본어 말뭉치에서 100K 문장쌍을 선별하고, 형태소 분석 및 토크나이징 후 FAISS로 벡터 인덱싱하였습니다.
RAG 앙상블 설계는 세 가지 방식을 융합하였습니다. Vector RAG는 FAISS 기반 코사인 유사도 벡터 검색, Light RAG는 K-means 클러스터링 기반 이중 레벨 검색, Graph RAG는 문서 간 의미적 유사도 그래프 및 노드 중심성 활용 방식입니다. 최종적으로 Re-ranking 모듈을 통해 가중 평균 후 재순위화하여 검색 결과를 도출합니다.
5. 주요 성능 결과
RAG 파이프라인 성능 비교
| 시스템 | 답변 관련성 | 답변 충실도 | 검색 정확도 | |---|---|---|---| | EnsembleRAG | 62.2% | 43.4% | 15.0% | | LightRAG | 58.0% | 44.6% | 15.0% | | GraphRAG | 57.0% | 44.6% | 15.0% | | VectorRAG | 57.8% | 42.0% | 15.0% |
- 응답 속도: 평균 9.1~9.2초로 실시간 관광 안내 서비스 요구사항 충족
- 오류율: 모든 시스템에서 0% 달성
- 메모리 사용량: 36GB로 온디바이스 환경 구동 가능
6. 연구의 시사점 및 기대효과
Qwen3-4B가 한국어·일본어 양쪽에서 가장 안정적인 성능을 보여 관광 안내 시스템의 베이스 모델로 최적임을 확인하였습니다. 앙상블 RAG 구조를 통해 단일 시스템 대비 4.4%p 성능 향상을 달성하며 융합 효과를 정량적으로 입증하였습니다.
기대효과로는 일본인 관광객의 정보 접근성 개선, 관광 안내소·공항·호텔 등 현장에서의 실시간 다국어 서비스 제공, 인력 운영 비용 절감(최대 30%), 응답 속도 70% 단축 등이 있습니다.
마무리
이번 연구를 통해 작은 모델로도 충분히 실용적인 관광 안내 AI 시스템을 구축할 수 있다는 가능성을 확인했습니다. Qwen3-4B 기반 앙상블 RAG 파이프라인은 정확도, 속도, 안정성을 모두 충족하며 실제 서비스 적용 가능성을 입증했습니다. 앞으로는 관광 도메인을 넘어 다른 산업군에서도 온디바이스 다국어 AI 서비스 확장이 가능할 것으로 기대합니다.
좋은 결과를 얻어서 행복합니다. 앞으로는 더 잦은 빈도로 찾아 뵙겠습니다. 감사합니다.
아래는 해당 연구의 포스터입니다.