[김승일 칼럼] 국가대표 AI의 도전

김승일 논설위원 dojune@busan.com
부산닷컴 기사퍼가기

글로벌 생성형 AI 데이터 종속 문제
민감한 국가·기업 기밀 해외 서버로

정부 '독자 AI 파운데이션 모델' 추진
행정·판례·언론 양질 자료 학습 필요
외국계에 경쟁력 우위 방안 찾아야
'한글 정보 주권 지킨다' 각오 필요

AI(인공지능) 도구 챗GPT 입력창에 연합뉴스 기사 링크를 넣고 비교, 분석을 주문하면 ‘읽을 수 없다’는 메시지가 뜬다. AI 로봇이 사이트에 들어와 데이터를 긁어가는 크롤링이 차단됐기 때문이다. AI 검색 결과에 전통적인 뉴스 매체가 그다지 많지 않고 생소한 이름이 자주 등장하는 이유다. 네이버 역시 생성형 AI의 크롤링을 막는다. 블로그나 카페의 방대한 정보에 아예 접근할 수 없게 했다. 애써 축적한 정보를 거대 AI 기업이 공짜로 가져가서 장사를 하게 놔두지 않겠다는 의도다.

공공기관에서 생산하는 문서는 아래한글로 작성된다. 전산화 이후 수십 년간 축적된 데이터는 국산 문서 편집기로 생산된 것이다. 그런데, 챗GPT 등 대부분의 글로벌 생성형 AI는 아래한글 문서를 읽을 수가 없다. 텍스트로 풀어서 입력하거나 PDF로 변환해야 업로드가 가능하다. 이는 사용자의 불편이기도 해서 정부 차원에서 호환 대책을 만들고 있고, 구글도 제미나이 3.0 버전부터 아래한글 문서 읽기 기능을 제공하고 있다. 국내에서는 LG 엑사원, 업스테이지 등이 호환 서비스를 제공한다. 방대한 정보가 담긴 아래한글 문서를 여는 기능에 AI 경쟁력이 엇갈린다.

크롤링 차단이나 아래한글 문서의 사례는 국산 AI 독립의 가능성에 시사하는 바가 있다. 구글이 유튜브와 검색 데이터를 독점해 AI 훈련에 사용하고 있고, 메타는 SNS의 실시간 정보를 활용하기 때문에 판단과 추론에서 뛰어난 성능을 자랑한다. 그래서 이들 AI 도구가 ‘넘사벽’처럼 보여 맞서 싸울 엄두가 나지 않았던 게 사실이다. 하지만 아직 AI 로봇이 접근하지 못한 한국의 정보 자산이 있다. AI 플랫폼 종속을 탈피하려는 노력을 포기해서는 안 되는 이유다.

‘AI 주권’(소버린 AI)이 전 세계의 화두다. 미국산 거대언어모델(LLM)에 예속되는 것을 피하려고 세계 각국이 사활을 걸고 있다. 중국은 알리바바, 텐센트 등이 자체 아키텍처(설계도) 기반의 LLM을 잇달아 내놓고 미국을 맹렬히 추격하고 있다. 프랑스(미스트랄)와 UAE(팰컨) 등도 독자 AI 모델 구축에 힘을 쏟고 있다. 우리 정부도 ‘독자 AI 파운데이션 모델’ 사업에 나서고 있다. 이른바 국가대표 AI의 도전이다.

그간 국산 AI 서비스들은 외국 모델을 미세 조정(파인튜닝)한 것에 그치는 경우가 많았다. 기술 독립이 이뤄지지 않았기 때문이다. 과기정통부의 독자 AI 사업은 국내 기업을 지원해 세계 최고 수준의 파운데이션 모델을 만들겠다는 야심 찬 계획이다. 특히 데이터 수집부터 모델 아키텍처 구성, 수조 개의 토큰을 학습하는 과정까지 독자적으로 수행한다는 점을 강조한다. 현재 1차 단계에서 네이버클라우드와 엔씨소프트가 탈락하고 남은 LG AI연구원, SK텔레콤, 업스테이지 등은 2차에 도전한다. 다음 과제는 문자와 이미지, 음성 등 여러 유형의 데이터를 동시에 처리하는 멀티모달 기술 개발이 핵심이다.

독자 모델의 성패 여부는 데이터의 차별화에 있다. 미국과 중국의 AI 로봇이 범접하지 못한 양질의 정보가 승부수다. 국가지식정보를 통합 검색·열람할 수 있는 플랫폼인 디지털집현전이 그 사례다. 각 기관에서 생산한 논문, 보고서, 간행물 등이 메타데이터와 함께 연결되어 있다. 국가 기관이 생산한 정보는 양질의 정제된 데이터라서 활용도가 높다. 국가대표 AI가 디지털집현전처럼 공공 정보를 모아서 이를 체계적으로 학습한다면 외국산 AI에 비할 수 없는 신뢰성을 얻을 수 있다.

이밖에 행정 데이터, 판례, 언론 아카이브 등 한국에 특화된 정보로 무장한다면 외국계가 넘볼 수 없는 독보적인 서비스가 가능하다. 특히 언론사 뉴스 콘텐츠의 경우 유료 사용 계약을 맺는 것도 공정한 AI 생태계 구축에 필요하다. 또 법률, 의료, 국방, 행정 등 전문 분야로 압축한 중소 규모 LLM도 시도할 가치가 있다. 한국에 특화된 콘텐츠로 사활을 걸어야 한다.

한때 파운데이션 모델은 도저히 승산이 없으니 응용 서비스나 개발하자는 식의 체념이 지배했던 적이 있다. 챗GPT의 충격파가 워낙 컸기 때문이다. 하지만 ‘독자 AI’는 불가피한 선택이다. 우리 정보가 해외 서버에 쌓이도록 방치한다는 것은 국가 안보와 산업 생태계를 위협하는 일이기 때문이다. 민감한 기업 기밀이나 국가 보안 사항이 통제되지 않은 채 국경을 넘나들게 할 수는 없다.

한국은 인터넷 검색과 문서 편집기에서 구글과 MS 워드에 장악되지 않아 디지털 세상의 한글 주권 독립으로 비유된 적이 있다. 하지만 생성형 AI와 멀티모달 시장에서는 후발주자로 뒤처진 점이 뼈아프다. ‘세계 3대 AI 강국’. 독자 파운데이션 모델이 성공해야 정부가 내세운 ‘AI G3’ 전략은 실현된다. 한글 데이터의 종속이냐, 아니면 주권을 지키느냐는 갈림길에 서 있다는 각오가 필요하다.

김승일 논설위원 dojune@busan.com


김승일 논설위원 dojune@busan.com

당신을 위한 AI 추천 기사