Back To Top

검색
닫기
국립국어원, 내년 인공지능 개발 언어자료 구축· 보급
라이프|2018-12-06 15:14

[헤럴드경제=이윤미 기자]인공지능 개발 등에 활용 가능한 10억 어절 국어 말뭉치가 내년 구축· 보급된다.

소강춘 국립국어원장은 6일 기자간담회를 갖고 누구나 이용 가능한 국가 공공재 성격의 대규모 국어 말뭉치를 구축, 내년에 우선 제공할 방침이라고 밝혔다. 10년 전 구축한 세종말뭉치 2억 어절에 신규로 8억 어절을 구축, 모두 10억 어절의 말뭉치를 인공지능과 언어처리 산업에 필요한 기초자료로 제공하게 된다. 정부는 이를 위해 204억원의 예산을 별도로 배정했다.

국어 말뭉치 구축은 4차 산업혁명 시대 도로내기에 비유된다. 알파고가 모든 기보를 익혀 최강자가 된 것처럼 기보에 해당하는 언어자료를 인공지능이 얼마나 많이 학습하느냐에 인공지능의 성능이 좌우된다. 이에따라 각국은 국가 경쟁력 차원에서 사업을 추진, 일본의 경우 150억 어절, 중국은 300~800억 어절, 미국은 300억어절을 구축, 인공지능 개발에 쓰고 있다. 우리는 선진국의 1%도 채 안되는 실정이다.

그동안 국내에선 포털과 대기업들이 자체적으로 말뭉치를 구축해왔으나 원소스의 저작권 해결이 안돼 공유가 불가능했다. 즉 신문의 텍스트나 연구논문, 문학작품, 각종 문서 등 모든 텍스트가 컴퓨터의 언어학습자료로 제공되는데, 이들의 저작권이 해결되지 않은 상태에서 사용돼 제한적이었다. 말뭉치는 말을 의미있는 최소단위로 나누고 형태소로 분석, 말의 뜻을 기계가 학습할 수 있는 형태로 모아놓은 자료집이다.

소 원장은 조만간 공개 설명회를 통해 산업계와 학계의 의견을 수렴, 참여를 높일 생각이라며, 지속적인 구축과 관리를 통해 다양한 사용자들이 편리하게 이용할 수 있도록 할 방침이라고 설명했다.

소 원장은 이와 함께 남북한 겨레말큰사전 편찬 등 남북한 언어 통합을 위해 공식적으로 북한에 사업 요청을 할 방침이라고 밝혔다.

이윤미 기자/meelee@heraldcoorp.com
프리미엄 링크
베스트 정보
이슈 & 토픽
비즈링크

오늘의 인기 정보
핫이슈 아이템
실시간 주요정보