[Toy Project] 관광 활성화를 위한 거대 언어 모델 및 RAG 활용 계획
프로젝트
이번 3월부터 대학원에서 비전일제 박사과정 공부를 시작했습니다. 지금까지는 수업에서 얻은 내용을 정리하는 수준이었지만, 앞으로는 박사과정에서 얻을 수 있는 것들을 최대한 활용해보고자 합니다. 그 일환으로 여러 toy project를 진행하려 하는데, UBAI의 슈퍼컴퓨터 환경에서 실험해볼 계획입니다.
회사와 학교 모두에서 거대 언어 모델, RAG, Agent 관련 연구 및 솔루션 개발을 하고 있는 만큼, 이와 연결되는 프로젝트를 진행해보고자 AI Hub에서 적합한 데이터를 탐색했습니다.
데이터셋 선정
여러 데이터를 검토하던 중 아래 데이터셋이 눈에 띄었습니다.
K-Culture 관광 콘텐츠 특화 일본어 말뭉치 데이터
한국 관광에 특화된 일본어 텍스트 데이터와 일본어 질의응답 데이터를 합산한 약 2억 어절 규모의 데이터셋으로, 일본인 관광객 대상 서비스 구축을 위해 설계되었습니다.
최근 한국과 일본의 해외 관광객 수 격차가 크게 벌어지고 있는 상황에서, 이 데이터를 활용하여 관광에 실질적인 도움이 되는 RAG 파이프라인 및 어플리케이션을 개발해보고자 합니다.
프로젝트 로드맵
1단계. 데이터 수집 (4월)
- 일본어 관광 데이터 수집: K-Culture 관광 콘텐츠 특화 일본어 말뭉치 데이터 등
- 한국어 관광 데이터 일본어 번역: 추가 데이터 확보를 위한 번역 작업
2단계. 모델 선정 (4월 ~ 5월)
4B 이하의 모델을 중심으로 한국어 및 일본어 성능이 뛰어난 모델을 선정합니다.
비교 대상 모델은 다음과 같습니다.
| 모델 | 파라미터 | 개발사 |
|---|---|---|
google/gemma-3-4b-it |
4B | |
Qwen/Qwen2.5-1.5B-Instruct |
1.5B | Alibaba |
3단계. RAG 파이프라인 구성 (5월)
수집된 데이터를 바탕으로 다양한 RAG 방법론을 비교 분석합니다.
- 기존 RAG: 표준 Retrieval-Augmented Generation 파이프라인
- GraphRAG: 그래프 구조를 활용한 RAG
- LightRAG: 경량화된 RAG 방법론
또한 실시간 검색 툴을 연동하여 최신 정보를 적절히 활용할 수 있도록 구성할 예정입니다. 기회가 된다면 MCP(Model Context Protocol) 도 적극 활용해볼 계획입니다.
4단계. 어플리케이션 개발 (6월 ~ 7월)
구성된 RAG 파이프라인을 연결하여, 관광객에게 실제 도움이 될 수 있는 어플리케이션을 개발합니다.
일정 요약
| 기간 | 단계 | 주요 내용 |
|---|---|---|
| 4월 | 데이터 수집 | 일본어 관광 데이터 수집 및 번역 |
| 4월 ~ 5월 | 모델 선정 | 소형 다국어 모델 성능 비교 |
| 5월 | RAG 파이프라인 | 기존 RAG / GraphRAG / LightRAG 비교 |
| 6월 ~ 7월 | 어플리케이션 개발 | RAG 기반 관광 어플리케이션 구현 |
진행 상황은 단계별로 블로그에 정리할 예정입니다.