[Toy Project] 관광 활성화를 위한 거대 언어 모델 및 RAG 활용 계획

프로젝트

이번 3월부터 대학원에서 비전일제 박사과정 공부를 시작했습니다. 지금까지는 수업에서 얻은 내용을 정리하는 수준이었지만, 앞으로는 박사과정에서 얻을 수 있는 것들을 최대한 활용해보고자 합니다. 그 일환으로 여러 toy project를 진행하려 하는데, UBAI의 슈퍼컴퓨터 환경에서 실험해볼 계획입니다.

회사와 학교 모두에서 거대 언어 모델, RAG, Agent 관련 연구 및 솔루션 개발을 하고 있는 만큼, 이와 연결되는 프로젝트를 진행해보고자 AI Hub에서 적합한 데이터를 탐색했습니다.

데이터셋 선정

여러 데이터를 검토하던 중 아래 데이터셋이 눈에 띄었습니다.

K-Culture 관광 콘텐츠 특화 일본어 말뭉치 데이터

한국 관광에 특화된 일본어 텍스트 데이터와 일본어 질의응답 데이터를 합산한 약 2억 어절 규모의 데이터셋으로, 일본인 관광객 대상 서비스 구축을 위해 설계되었습니다.

최근 한국과 일본의 해외 관광객 수 격차가 크게 벌어지고 있는 상황에서, 이 데이터를 활용하여 관광에 실질적인 도움이 되는 RAG 파이프라인 및 어플리케이션을 개발해보고자 합니다.

프로젝트 로드맵

1단계. 데이터 수집 (4월)

일본어 관광 데이터 수집: K-Culture 관광 콘텐츠 특화 일본어 말뭉치 데이터 등
한국어 관광 데이터 일본어 번역: 추가 데이터 확보를 위한 번역 작업

2단계. 모델 선정 (4월 ~ 5월)

4B 이하의 모델을 중심으로 한국어 및 일본어 성능이 뛰어난 모델을 선정합니다.

비교 대상 모델은 다음과 같습니다.

모델	파라미터	개발사
`google/gemma-3-4b-it`	4B	Google
`Qwen/Qwen2.5-1.5B-Instruct`	1.5B	Alibaba

3단계. RAG 파이프라인 구성 (5월)

수집된 데이터를 바탕으로 다양한 RAG 방법론을 비교 분석합니다.

기존 RAG: 표준 Retrieval-Augmented Generation 파이프라인
GraphRAG: 그래프 구조를 활용한 RAG
LightRAG: 경량화된 RAG 방법론

또한 실시간 검색 툴을 연동하여 최신 정보를 적절히 활용할 수 있도록 구성할 예정입니다. 기회가 된다면 MCP(Model Context Protocol) 도 적극 활용해볼 계획입니다.

4단계. 어플리케이션 개발 (6월 ~ 7월)

구성된 RAG 파이프라인을 연결하여, 관광객에게 실제 도움이 될 수 있는 어플리케이션을 개발합니다.

일정 요약

기간	단계	주요 내용
4월	데이터 수집	일본어 관광 데이터 수집 및 번역
4월 ~ 5월	모델 선정	소형 다국어 모델 성능 비교
5월	RAG 파이프라인	기존 RAG / GraphRAG / LightRAG 비교
6월 ~ 7월	어플리케이션 개발	RAG 기반 관광 어플리케이션 구현

진행 상황은 단계별로 블로그에 정리할 예정입니다.

[Toy Project] 관광 활성화를 위한 거대 언어 모델 및 RAG 활용 계획

프로젝트

데이터셋 선정

여러 데이터를 검토하던 중 아래 데이터셋이 눈에 띄었습니다.

K-Culture 관광 콘텐츠 특화 일본어 말뭉치 데이터

프로젝트 로드맵

1단계. 데이터 수집 (4월)

일본어 관광 데이터 수집: K-Culture 관광 콘텐츠 특화 일본어 말뭉치 데이터 등
한국어 관광 데이터 일본어 번역: 추가 데이터 확보를 위한 번역 작업

2단계. 모델 선정 (4월 ~ 5월)

4B 이하의 모델을 중심으로 한국어 및 일본어 성능이 뛰어난 모델을 선정합니다.

비교 대상 모델은 다음과 같습니다.

모델	파라미터	개발사
`google/gemma-3-4b-it`	4B	Google
`Qwen/Qwen2.5-1.5B-Instruct`	1.5B	Alibaba

3단계. RAG 파이프라인 구성 (5월)

수집된 데이터를 바탕으로 다양한 RAG 방법론을 비교 분석합니다.

기존 RAG: 표준 Retrieval-Augmented Generation 파이프라인
GraphRAG: 그래프 구조를 활용한 RAG
LightRAG: 경량화된 RAG 방법론

4단계. 어플리케이션 개발 (6월 ~ 7월)

구성된 RAG 파이프라인을 연결하여, 관광객에게 실제 도움이 될 수 있는 어플리케이션을 개발합니다.

일정 요약

기간	단계	주요 내용
4월	데이터 수집	일본어 관광 데이터 수집 및 번역
4월 ~ 5월	모델 선정	소형 다국어 모델 성능 비교
5월	RAG 파이프라인	기존 RAG / GraphRAG / LightRAG 비교
6월 ~ 7월	어플리케이션 개발	RAG 기반 관광 어플리케이션 구현

진행 상황은 단계별로 블로그에 정리할 예정입니다.

[Toy Project] 관광 활성화를 위한 거대 언어 모델 및 RAG 활용 계획

프로젝트

데이터셋 선정

여러 데이터를 검토하던 중 아래 데이터셋이 눈에 띄었습니다.

K-Culture 관광 콘텐츠 특화 일본어 말뭉치 데이터

프로젝트 로드맵

1단계. 데이터 수집 (4월)

일본어 관광 데이터 수집: K-Culture 관광 콘텐츠 특화 일본어 말뭉치 데이터 등
한국어 관광 데이터 일본어 번역: 추가 데이터 확보를 위한 번역 작업

2단계. 모델 선정 (4월 ~ 5월)

4B 이하의 모델을 중심으로 한국어 및 일본어 성능이 뛰어난 모델을 선정합니다.

비교 대상 모델은 다음과 같습니다.

모델	파라미터	개발사
`google/gemma-3-4b-it`	4B	Google
`Qwen/Qwen2.5-1.5B-Instruct`	1.5B	Alibaba

3단계. RAG 파이프라인 구성 (5월)

수집된 데이터를 바탕으로 다양한 RAG 방법론을 비교 분석합니다.

기존 RAG: 표준 Retrieval-Augmented Generation 파이프라인
GraphRAG: 그래프 구조를 활용한 RAG
LightRAG: 경량화된 RAG 방법론

4단계. 어플리케이션 개발 (6월 ~ 7월)

구성된 RAG 파이프라인을 연결하여, 관광객에게 실제 도움이 될 수 있는 어플리케이션을 개발합니다.

일정 요약

기간	단계	주요 내용
4월	데이터 수집	일본어 관광 데이터 수집 및 번역
4월 ~ 5월	모델 선정	소형 다국어 모델 성능 비교
5월	RAG 파이프라인	기존 RAG / GraphRAG / LightRAG 비교
6월 ~ 7월	어플리케이션 개발	RAG 기반 관광 어플리케이션 구현

진행 상황은 단계별로 블로그에 정리할 예정입니다.

[Toy Project] 관광 활성화를 위한 거대 언어 모델 및 RAG 활용 계획

[Toy Project] 관광 활성화를 위한 거대 언어 모델 및 RAG 활용 계획

데이터셋 선정

프로젝트 로드맵

1단계. 데이터 수집 (4월)

2단계. 모델 선정 (4월 ~ 5월)

3단계. RAG 파이프라인 구성 (5월)

4단계. 어플리케이션 개발 (6월 ~ 7월)

일정 요약

[Toy Project] 관광 활성화를 위한 거대 언어 모델 및 RAG 활용 계획

데이터셋 선정

프로젝트 로드맵

1단계. 데이터 수집 (4월)

2단계. 모델 선정 (4월 ~ 5월)

3단계. RAG 파이프라인 구성 (5월)

4단계. 어플리케이션 개발 (6월 ~ 7월)

일정 요약

관련 글

댓글

[Toy Project] 관광 활성화를 위한 거대 언어 모델 및 RAG 활용 계획

데이터셋 선정

프로젝트 로드맵

1단계. 데이터 수집 (4월)

2단계. 모델 선정 (4월 ~ 5월)

3단계. RAG 파이프라인 구성 (5월)

4단계. 어플리케이션 개발 (6월 ~ 7월)

일정 요약