-재단 AI 역사왜곡대응센터 개소-
AI 시대의 도래
2022년 11월, 미국 오픈AI의 ChatGPT 출시를 시작으로 구글의 Gemini, xAI의 Grok, 앤트로픽의 Claude 등 글로벌 빅테크 기업들이 앞다투어 대규모 언어 모델(LLM, Large Language Model) 기반의 대화형 AI를 선보였다. 2025년 초에는 중국의 딥시크(DeepSeek) R1이 공개되어 전 세계의 주목을 받았으며, 한국 역시도 소버린 AI를 확보하기 위해 독자적 대규모 언어 모델 개발을 장려하고 있다. 대화형 AI가 보편화되면서 언제부턴가 우리는 궁금한 것이 생기면 AI에게 먼저 물어보는 것이 자연스러운 일상이 되었다. 생활과 업무, 연구 환경 곳곳에서 AI는 이미 사람과 밀접하게 공존하고 있는 것이다. 최근에는 AI 비서(agent)까지 등장하면서 그 의존도는 더욱 높아질 것으로 보인다. 바야흐로 AI 시대에 접어들고 있는 것이다.
그런데 이러한 AI가 무조건 신뢰할 만한 정보만 제공하지는 않는다는 점에서 문제가 발생한다. 최근에는 역사 분야에서 그러한 사실이 확인되어 언론에 보도된 바 있다. 중국의 딥시크는 고구려·발해에 관한 질문에 한국어와 중국어로 물었을 때 서로 다른 답변을 내놓으며 역사왜곡 논란을 낳았고, 국내외 대표적인 8개 AI에 독도 영유권을 물었을 때 절반이 '분쟁지역'이라는 잘못된 답변을 내놓았다. AI가 생성한 잘못된 정보는 빠르게 확산되며, 사용자 인식에 직접적인 영향을 미칠 수 있다는 점에서 심각한 문제로 이어질 수 있다.
현재 대화형 AI는 방대한 텍스트 데이터를 미리 학습한 뒤 질문에 답하는 사전학습 언어모델과 외부 데이터를 참조해 응답의 정확도를 높이는 검색 증강 생성(RAG, Retrieval-Augmented Generation) 방식을 결합하여 작동한다. 이때 AI가 잘못된 정보 또는 교묘하게 왜곡된 정보를 학습했거나, AI 특유의 부정확한 정보도 그럴듯하게 답하는 환각 현상(Hallucination)으로 인해 위의 문제가 발생했을 수 있다.
AI가 이해하고 활용할 수 있는 정보를 제공하자
컴퓨터 과학 분야에는 오래전부터 ‘Garbage In, Garbage Out(쓰레기가 들어가면 쓰레기가 나온다)’이라는 격언이 있다. AI가 학습 또는 참조하는 데이터 자체에 문제가 있다면 AI의 답변에도 문제가 존재할 수밖에 없다. 그리고 왜곡된 정보가 AI에 의해 학습되고 다시 재생산되는 악순환이 반복된다면, AI는 환각 현상이 없더라도 지속적인 신뢰도 저하 문제에 직면할 수 있다. 신뢰도 경쟁이 심화될수록 AI 서비스 제공자는 신뢰할 수 있는 데이터를 확보하고 선별하는 노력을 지속적으로 강요받게 될 것이다. 결국 AI의 신뢰성은 AI의 성능뿐만 아니라 그 기반이 되는 데이터의 품질에 의해 좌우되는 것이다.
바로 이 지점에서 동북아역사재단의 역할이 중요해진다. 우리 재단은 그동안 독도, 한일역사문제, 한중역사문제 분야의 전문가들이 생산해 낸 신뢰도 높은 다량의 정보를 보유하고 있다. 이러한 자료는 홈페이지(동북아역사넷, 자료센터)를 통해 html, eBook, PDF, 이미지 등 형태로 공개되고 있지만, 대부분은 사람이 이해할 수 있는 비정형 데이터로서 AI가 직접 활용하기에는 한계가 있다. 따라서 재단의 연구 성과물을 AI가 이해하고 활용할 수 있는 구조화된 데이터로 전환하고, 정보 제공 체계를 AI 친화적으로 개선할 필요가 있다. 이를 통해 AI 기반 검색 환경에서 정확하고 신뢰할 수 있는 역사 정보가 효과적으로 유통 및 활용될 수 있을 것이다.
재단은 이러한 인식하에 2025년부터 전담 TF를 조직하였으며, 2026년 1월 AI역사왜곡대응센터(이하 AI센터)를 설치했다. AI센터는 역사 연구와 인공지능 기술을 결합하여 새로운 연구·데이터 생태계를 구축하는 것을 목표로 한다. 특히 AI 시대에 적합한 역사 데이터의 생산·구조화·확산에 중점을 두고 있다.
먼저 재단이 보유한 역사 자료를 AI가 이해 및 활용할 수 있는 형태(벡터 DB, 지식그래프 DB)로 전환하고자 한다. 벡터 데이터는 다양한 정보를 수치화하여 의미적으로 유사한 데이터를 가깝게 배치한 것인데, 정보 간의 정확한 관계와 의미를 완전히 반영하는 데 한계가 있다. 이를 보완하기 위해 온톨로지(Ontology) 기반의 지식그래프 데이터베이스를 함께 구축한다. 지식그래프는 개념과 관계를 구조화하여, AI가 의미와 맥락을 반영한 보다 정교한 이해와 응답을 가능하게 한다.
이렇게 구축된 데이터는 외부에 개방하여 다양한 AI 서비스와 사람들이 활용할 수 있도록 해야 할 것이다. 이는 단순한 데이터 공개를 넘어, 신뢰할 수 있는 역사 지식이 AI 생태계 전반에 확산되는 기반을 마련하는 과정이라고 할 수 있다.
올바른 역사 데이터가 AI 생태계 안에 깊숙이 자리 잡는다면, 왜곡된 정보의 확산을 줄이고 보다 건강한 정보 생태계를 조성하는 데 기여할 수 있을 것이다. 또한 연구자들에게는 더 깊은 분석과 창의적 연구를 가능하게 하는 환경을 제공하고, 일반 시민들에게는 보다 정확하고 풍부한 역사 정보를 제공할 수 있을 것이다.