SPECIAL ISSUE
02

지체할 수 없는 AI Transformation(AIX)

글. 최재식
㈜인이지 대표이사
KAIST 김재철AI대학원 교수
서울대학교에서 컴퓨터공학과를 졸업한 후, 미국 일리노이대학교 어바나-샴페인(UIUC)에서 전산학 박사 학위를 취득하였다. 울산과학기술원(UNIST) 교수를 거쳐 현재는 KAIST 김재철AI대학원 교수로 재직중이다. 주요 연구 분야는 설명 가능 인공지능(XAI), 대용량 시계열 데이터의 학습 및 추론, 딥러닝 응용 등이다. 2019년에는 공정 효율 최적화 인공지능 예측 솔루션을 제공하는 ㈜인이지를 창업하여, 대표이사로서 학문과 산업 현장을 연결하는 혁신을 이어가고 있다.
인공지능 기반 전환(AI Transformation, AIX)을 잘 실행하기 위해서는 인력, 데이터, 인프라의 철저한 준비가 필요하다. 이 글에서는 AIX를 위해 필요한 것 중 데이터에 집중한다. 세계적인 수준의 데이터를 확보하는 데 필요한 역량과 각 응용 분야(vertical)에서 진행되고 있는 시도를 살펴보고, 이를 발전시키기 위해서는 어떤 노력을 기울여야 하는지를 살펴본다.




AIX에 필요한 학습 데이터
1) 국내외 AI 학습 데이터 현황
AI 산업의 육성에 가장 중요한 3대 요소는 인프라, 데이터, 인재이다. 그중 데이터는 딥러닝, 머신러닝, 강화학습 등 최근 널리 사용되는 대형 AI 모델을 학습시키는 데 꼭 필요하다. 국내에서는 인공지능 학습을 위하여 의료데이터, 공공데이터 등을 개방하는 정책을 추진하고 있으나, 국제적인 경쟁력을 갖춘 AI 모델을 학습하기에는 여전히 빅데이터가 부족하다는 인식이 자리하고 있다.


표1 대형언어모델별 학습 토큰 수 및 출시일


2) 대형 언어 모델(Large Language Model, LLM) 개발에 필요한 데이터
DeepSeek는 14.8T 의 토큰을 학습하여 OpenAI의 ChatGPT-4 및 Google의 Gemini Ultra와 비슷한 양의 학습 데이터를 구축했다. 다만 Anthropic의 Claude와 NAVER의 하이퍼클로바X와 같이, 이미 시장에 출시된 모델은 새로 구축한 학습 데이터의 크기를 공개하지 않는 경우가 대부분이다. 더불어 모델을 공개한 경우(DeepSeek, EXAONE 등)에도 학습 데이터와 학습을 위한 코드 및 절차는 별도로 공개하지 않는다. 따라서 모델만으로는 글로벌 상용 서비스를 위한 성능을 내기가 어렵다. 서비스를 위한 대량의 학습 데이터를 확보하지 못한 기관의 경우, 범용적으로 공개된 데이터와 모델을 통해 특정 작업에서의 학습과 미세조정(fine tuning) 학습을 위한 벤치마크에서 경쟁한다. 그러나 글로벌 수준에서 상용 서비스를 제공하기에는 부족한 실정이다.

3) 대형 언어 모델(LLM) 개발을 위한 데이터 수집 과정
ChatGPT-3의 경우, 총 45TB의 전체 데이터 중에서 정제 작업을 거쳐 580GB의 학습 데이터를 모았다. 이 중 다음 네 가지 종류의 데이터를 주요 학습 데이터로 활용한 것으로 보고되었다.
① 웹에 공개된 웹페이지 데이터1)
② 책과 공개된 논문 등의 데이터
③ 프로그램을 위한 코딩 데이터
④ Wikipedia 데이터 및 추가적인 데이터
DeepSeek는 본인이 ChatGPT라고 이야기한 것을 고려하였을 때, 웹에 공개된 데이터 외에도 지식 증류(Knowledge Distillation)를 통하여 학습 데이터를 생성 및 수집했을 가능성이 있다. 지식 증류는 ChatGPT 등의 서비스에 접속하여 질문하는 방식으로, 서로 다른 기계학습 모델 간에 지식을 전달하는 방법을 가리킨다. 그리고 미국 8개 신문사가 OpenAI에 소송을제기한 것을 고려하면, 상용 서비스를 제공하는 미국의 빅테크기업도 성능을 높이기 위해 모든 저작권의 승인을 받지는 않은 상태로 이를 학습에 활용한 것으로 보인다.
학습에 활용된 데이터 중 웹페이지, 비디오, 위키피디아 등의 데이터는 기존의 검색 서비스에도 활발하게 활용되는 데이터다. 기존 검색에 활용되는 공개 데이터가 LLM에서도 기본 학습 데이터가 된다는 것을 확인할 수 있다.
그러나 LLM은 기존의 검색 엔진과는 다르게, 복잡하고 다양한 멀티 모달 형식의 질문(예. IQ 테스트, 추론 문제)에 답변을 제공하는 경우가 많다. 따라서 위 학습 데이터로 사전 학습을 한 후, 추가적인 추론을 고도화하는 생각의 연결고리(Chain of Thought, CoT) 학습 데이터를 추가로 수집하여 모델 학습을 고도화한다. DeepSeek는 60만 개의 추론 데이터와 20만 개의 질의응답 지도학습 데이터 및 사람의 정답 선호 데이터를 별도로 구축하여, 답변의 성능을 고도화하는 데 활용하였다고 보고되었다.
국내에서는 NAVER와 LG가 모델 학습 데이터의 규모를 공개했다. 이들은 한국어 데이터가 많이 활용된 점을 강조하고 있으나, 정확한 데이터의 종류와 양을 알기는 어렵다. 반면 다른 기업들은 학습 벤치마크를 위해 공개된 데이터에 기반하여 파라미터를 수정함으로써 성능을 고도화한 경우가 많았다. 따라서 NAVER와 LG는 글로벌 경쟁 기업의 적극적이고 공격적인 학습데이터 수집에 대비해 뒤처지는 면이 있는 것으로 평가된다. 그러므로 ChatGPT 학습에 활용된 45TB의 기초(raw) 데이터 및 학습을 위한 정제된 580GB 토큰 수준의 정보(텍스트 형식의 상식) 데이터 확보가 필요하다. 근간이 되는 학습 데이터를 한국어뿐만 아니라 영어를 중심으로 한 다국어 데이터로 확보하면 더욱 좋을 것이다. 더불어, AI 모델의 사고력을 높이기 위해 추론 고도화 데이터 및 사람의 선호에 윤리적 판단을 가미할 수 있는 선택 데이터를 확보하는 것이 시급하다.




AIX에 필요한 도메인별 학습 데이터 공개
인공지능의 영향이 클 것으로 예상되는 대표적인 응용 분야로는 금융, 의료, 제조, 공공(군, 법률 등) 등이 있다.
금융 분야에서는 대형 언어 모델의 질의응답 기능을 금융 거래에 활용하는 것을 중심으로 AI 적용이 확산되고 있다. 이에 따라 대형 언어 모델을 금융 데이터로 고도화하는 데이터가 각 응용 분야별로 취합되고 있다. FinBERT, BloombergGPT 등이 기초 모델로 사용되고 있으며, 그 사용이 널리 확장되고 있다. 인공지능 컨택 센터는 금융업의 고객 상담을 중심으로 급속히 발전·확산하고 있다. 대형 언어 모델과 기존의 인공지능 기술을 융합한 서비스들은 기존에 상담원이 담당하던 고객 응대를 보완함으로써, 상담 응대 시간을 단축하고 고객 만족도를 높이고 있다. 대형 언어 모델의 향상된 언어 이해 능력을 바탕으로, 채팅을 통한 상담도 금융 분야 전반에 확산되고 있다.
의료 분야에서는 국민건강보험공단과 건강보험심사평가원을 중심으로 대형 모델의 학습이 가능한 의료 빅데이터가 구축되어 있다. 이는 국내에서 전 국민이 의료보험에 가입되어 있고, 많은 의료 현장의 정보가 디지털로 처리되고 기록되는 환경이기에 구축될 수 있었다. 이러한 의료 데이터는 전자의무기록(Electrical Health Record, EHR) 데이터를 중심으로 학습을 위해 공개되기 시작하였고, 최근에는 의료 영상 데이터도 학습용으로 공개되고 있다. 의료 공공기관의 데이터 공개를 위한 노력과 병원의 디지털 고도화를 위한 데이터 수집 노력을 통해, 국내에서는 루닛(Lunit), 뷰노(VUNO), 에이아이트릭스(AITRICS) 등이 AI 서비스를 개발하였다. 국내 기업들의 AI 서비스는 의료 영상이나 중환자실 모니터링 등에 활용되고 있으며, 국내 의료 시장뿐만 아니라 해외 시장으로도 진출하고 있어 긍정적이다.
제조 분야에서는 국내 제조 기업들이 반도체, 자동차, 철강, 석유화학, 이차전지 등의 분야에서 세계적인 무인화 자동화 설비를 구축하였다. 그리고 이를 연결 및 모니터링하여 품질과 생산을 고도화하고 있다. 정부의 스마트 공장 보급 사업을 통해서는 대기업뿐만 아니라 중소·중견 기업에서도 이러한 장치의 연결 및 데이터 수집을 지속적으로 고도화할 수 있었다. 따라서 생산 효율을 높이는 작업이 국내 공장뿐 아니라 해외 생산 기지에서도 확산되고 있다. 이러한 고도화를 통해서, 포스코는 국내 최초로 세계경제포럼이 선정한 등대공장으로 인정받았다. LG전자, LS일렉트릭 등도 자동화·고도화된 제조 생산 시스템으로 인정받고 있다. 그리고 이러한 제조 설비에서도 영상 인식을 통한 불량 검출, AI를 통한 생산 제어, 품질 예측, 수요 예측 등을 위한 데이터가 수집 및 활용되고 있다. 단, 각 기업의 주요 제조 노하우 및 설비 라이선스 계약 등의 조건으로 인해 생산 데이터는 공유되거나 공개되지 않았다. 그러므로 제조 파운데이션(Foundation) 모델을 학습하기 위해서는 공통 제조 데이터를 수집할 필요가 있다.




국내에서 AIX 진행이 어려운 점
국내 기업들은 미국의 빅테크 및 중국의 DeepSeek에 비해, 학습을 위한 데이터를 적극적이고 공격적으로 확보하기가 어렵다. 개인정보가 담긴 데이터에 대한 국내 소비자들의 주체성과 민감도가 매우 강하기 때문이다. 국내에서 서비스하는 빅테크의 경우, DeepSeek처럼 자국의 기준에 맞춘 사용자 계약을 통해 국내 소비자들의 데이터를 AI 학습에 활용할 길을 열어둔 경우가 많다. 그러나 국내 기업들은 전통적으로 강한 소비자들의 요구로 인하여, 서비스 데이터를 학습 데이터로 활용하여 공식적으로 AI 서비스를 개발하는 데 어려움이 있다. 따라서 정부는 이를 해결할 필요가 있다.
민감한 개인정보 데이터의 경우, 개인정보보호법 등으로 보호하려는 노력을 지속적으로 기울여야 한다. 그러나 민감하지 않은 개인정보가 담긴 데이터라면, 소비자의 동의를 거쳐 학습용으로 활용하게 해주는 등 기술 개발을 위한 유연한 대응이 필요해 보인다.
더불어, 서비스를 제공하는 기업도 서비스의 고도화를 위해서 인터넷뿐만 아니라 외부의 주요한 정보를 학습 데이터로 만들어야 한다. 정부가 정책을 통해 이러한 기업에 자금과 인력을 직·간접적으로 지원한다면, 기업이 AI 학습에 필요한 데이터를 확보하는 데 도움을 줄 수 있을 것이다.




국내 기업들이 바라는 AIX 추진 지원 및 전략
한국산업기술진흥협회에서 실시한 ‘2025년 산업기술정책 관련 산업계 의견 조사’ AIX 부문 결과를 상용 인공지능 요약 서비스를 통하여 정리해 보았다. 기업들은 △정책 및 제도적 지원 △기술 혁신 인프라 강화 △AI 전문 인력 양성과 교육 △산업별 특화 데이터 인프라 구축에 대한 수요를 보였다. 이는 AI 도입의 장애 요인이 특정 산업군에 국한된 것이 아니며, 생태계 조성이 산업 전반의 디지털 전환을 위한 핵심 과제라는 공통된 인식을 반영한다. 특히 결과 중에서는 기술 경쟁력 강화를 위한 고품질 학습 데이터와 인프라의 확보, 그리고 각 산업의 수요에 부합하는 맞춤형 AI 솔루션 개발의 필요성이 두드러졌다.


표2 한국산업기술진흥협회 산업계 의견 조사 결과 (AIX 부문)


1) 정부 및 기관의 지원
정부 및 기관의 지원에 대한 요청으로는 ①정부가 AI 기술 활용 사례 및 대표 사례를 발굴하고 ②중소기업이 AI를 잘 도입할 수 있도록 기회를 제공하며 ③정책 및 금융 지원을 추진할 것을 요구하는 경우가 많았다. 수도권과 지방의 인공지능 도입 격차를 해결하기 위해서는 정부 및 기관이 지역별 AI 지원센터를 마련하는 것도 좋을 것이다.

2) 기술 혁신 강조
기술 혁신 강조에 대한 의견으로는 ①AI를 위한 소프트웨어와 하드웨어 인프라 개발 및 보급의 병행 ②산업별 맞춤형 솔루션 발굴 및 제공 ③인공지능에 대한 연구개발(R&D)의 지속에 대한 요청이 많았다. 특히 범용적인 인공지능(AGI)이 특정 산업에 그대로 적용될 수 있는 경우는 제한적이므로, 산업에 특화된 AI 솔루션을 육성·개발하고 발굴하여 보급하는 것이 필요하다는 의견에 주목해야 한다.

3) 중소기업의 어려움
중소기업의 어려움에 대한 의견으로는 ①AI 도입의 초기 비용이 부담되고 ②AI 전문 인력을 구하기가 어려우며 ③데이터를 체계적으로 관리하기가 어렵다는 호소가 많았다. 특히 AI 솔루션을 특정 용도가 아니라 IT 인프라로 상정하여 투자를 진행하면, 회사의 전반적인 생산성은 서서히 늘어날 수 있지만 단기간에 가시적인 생산성 향상은 확인하기 어렵다. 따라서 기업들이 이러한 인프라적인 투자에 대한 지원을 요청한 것이 눈에 띈다.

4) 교육의 필요성
교육의 필요성에 대한 의견으로는 ①ChatGPT와 같은 AI 서비스에 대한 활용 교육의 확대 ②개발자뿐만 아니라 일반 직장인도 현업에서 쉽게 AI를 활용하도록 하는 교육 기회의 확대 ③AI 도입을 위한 실무 중심 교육의 강화를 요청한 경우가 많았다. 특히 AI에 대한 무료 교육 등 교육 기회의 확대를 요청한 경우가 많아서, 이러한 교육 기회 및 인프라를 확충할 필요가 있다.




맺음말
AIX는 어느 하나의 기술로 완성되는 것이 아니라, 각 산업에 최적화된 데이터와 인재, 그리고 이를 뒷받침할 정책과 인프라가 유기적으로 결합된 통합적 접근을 통해서만 완성될 수 있다. 한국이 이러한 AI 분야에서 주도권을 확보하기 위해서는 기술·산업·제도 전반에 걸쳐 생태계를 구축하고, 국가 산업 구조 전반에 AI를 내재화해야 한다. 이를 통해 산업 현장에서 실질적인 성과를 창출할 수 있을 것이다.



01 https://commoncrawl.org/