◀ Prev       Next  

NEWS 2001년 2월

ETRI,
외래어 기능이 보강된 한국어 음성 합성기 기술

한국전자통신연구원, 교환·전송기술연구소 음성언어팀   김상훈

(이 글은 ETRI 소식지에서 인용하였습니다.)
  
1.서론
음성은 인간과 인간의 의사소통 수단으로 가장 편리하게 사용되는 매체이다. 지난 수십년간 국내외 여러 기관에서 인간과 컴퓨터와의 자연스러운 통신을 위해 음성언어를 이용한 휴먼인터페이스 기술을 연구해 왔고, 최근에는 제한된 영역이지만 이러한 기술이 실생활에  적용되고 있다.

특히TTS(Text-to-Speech) 기술은 음성인식 기술보다 상용화에 더 접근된 기술이며 각종 텍스트 정보를 음성으로 변환하는 서비스에 활용할 수 있다. 요즈음과 같이 전자메일이 일반화된 상황에서 외부로부터 전화를 이용하여 새로 온 편지를 읽을 수 있는 것도 TTS기술 덕분이다. 이외에도 TTS기술은 워드 프로세서로 입력한 문장, 웹 브라우저가 화면에 보여주는 HTML문서를 음성으로 들어볼 수 있게 해주며, 시각장애자인 경우 인터넷상의 정보를 음성으로 변환하여 들려줌으로써 일반인에 못지않게 각종 유용한 정보를 얻을 수 있다. 최근에는 과거 기계음수준의 합성음을 넘어 인간의 음성과 유사한 합성음을 생성할 수 있는 기술이 개발되어 TTS 기술을 이용한 서비스가 일반인을 대상으로 점차 확대되어 가고 있는 추세이다. 또한 이러한 TTS 기술은 상업적으로 그 중요성이 인식되어 국내외에서 활발히 연구/개발되고 있으며 원천기술을 확보하려는 기관이나 업체가 점점 늘어나고 있다. 국외에서는 일본의 ATR-ITL, 미국의 AT&T, Microsoft, IBM, 유럽의 L&H, Elan 등이 음성합성분야의 대표적 기관이며, 이들 기관들은 자국어 외 다양한 언어에 대한 TTS도 개발하고 있다. 특히 몇몇 기관에서는 인간의 감정이 포함된 합성음성도 개발 중에 있다.

국내에서는 ETRI, 보이스웨어, L&H코리아, 삼성 등이 대표적이며 각 기관마다 자체적으로 한국어 TTS 기술을 개발하고 있으며, 그 성능도 상당한 수준에 도달한 것으로 판단된다.

2. 기술개요
기존 합성기술이 소량의 음성데이타로부터 운율처리를 통해 자연스러운 합성음을 생성해내고자 하였으나 여전히 기계음 수준을 벗어나지 못하였다. 이는 자연스러운 합성음을 생성하기 위해 적용되었던 운율처리가 오히려 음질을 열화시키고, 자연스런 음성출력을 위한 운율모델링도 불완전하였기 때문이다. 이에 따라 최근 음성합성은 자연스럽게 발성된 문장 음성데이타를 대용량으로 녹음, 이로부터 합성단위를 추출하여 사용하는 기술이 널리 적용되고 있다.

문장음성에는 이미 자연스러운 운율이 내재되어 있고, 이러한 합성단위를 적절하게 선정한다면 운율처리없이 자연스러운 합성음을 생성할 수 있다. 그러나 다양한 운율현상을 반영하기 위해 문장음성 데이터가 대용량이 되어야 하고 최적 합성단위 선정 알고리즘도 필요하게 된다.

이에 본 연구팀에서는 1998년도에 국내최초로 대용량 음성데이타베이스 기반 합성기술(글소리 version 4.0)을 개발한 바 있다. 특히 문장음성을 영역(일기예보, 교통방송, 증권정보 등)에 따라 구축하여 실상용화 가능한 매우 자연스러운 합성음이 생성됨을 확인하였다. 이번에 개발된 “외래어 기능이 보강된 한국어 음성합성기(글소리 version 5.0)”는 텍스트에 외래어가 있을 경우 매우 부자연스러운 합성음이 생성되는바 이를 개선한 시스템이다. 특히 인터넷이 보편화함에 따라 E-commerce, 뉴스 등 흔히 접할 수 있는 문서에서 외래어(예: 아이오와, 로스엔젤레스, 클린턴, 이스라엘 등)가 빈번히 사용되고 있고, 따라서 외래어 합성은 합성기의 성능에 매우 중요하다.
외래어 합성음이 부자연스러운 원인은 한국어 단어의 음소열 구성과 외래어 단어의 음소열 구성이 상이하여 기존의 합성 데이터베이스로 사용된 문장음성에 이러한 특성이 반영되지 않았기 때문이다. 따라서 개선된 합성기의 음성 데이타베이스에는 이러한 외래어 음소열에 대한 특성이 반영되도록 하였다. 이를위해 외래어가 많이 포함된 대량의 텍스트를 수집하고 이로부터 최적 문장 세트를 추출하여 합성 데이터베이스에 보강하였다. 그리고 기존 합성 데이터베이스가 문장음성으로부터 자동 음소분할되어 생성되었기 때문에 다수의 음소분할 오류가 포함되어 있어 합성음질을 저하시키는 원인이 되는 바 이를 수정하였고, 기존 합성 데이터베이스에 부족한 합성단위를 보강하기 위해 외래어 데이터 외에 500여 문장의 뉴스용 문장음성을 더 보강하여 합성음질을 대폭 개선시켰다. 또한 사용자가 원하는 속도로 발화속도를 가변할 수 있도록 하여 합성음이 보다 유창하게 생성될 수 있는 효과가 있도록 하였다. 특히 시각장애인의 경우, 발화속도를 빠르게 하는 것을 더 선호하고 이는 짧은 시간내 정보전달의 양을 극대화할 수 있어
         발화속도가변은 시각장애인들에게 매우 효과적인 기능이라 할 수 있다. 기타 복합어 경계에서의 음운변동을 고려하였고, 텍스트 포맷팅 기능을 강화하여 시스템의 안정도를 높였다. 이번 기술의 특징을 요약하면 다음과 같다.

▶ 합성음 발화속도 조절 가능
▶ 복합어 경계에서의 음운 변동 규칙 처리
▶ 여성화자 1인의 합성음성 생성
▶ 영어, 한자, 숫자, 심볼 처리
▶ 사용자 발음사전을 이용한 발음 추가 가능
▶ WinNT/Win98 multi-thread 지원
▶ API 함수 이용하므로 시스템 포팅 용이
▶ 약 30~40 채널 실시간 처리 가능(Pentium II 450MHz)
▶ 출력 음성 형태: 8kHz, 16kHz(u-law, ADPCM)
▶ DB size: 300MB~700MB

3. 활용분야
PC보급율이 높아짐에 따라 인터넷을 이용한 전자상거래, 전자메일 서비스, 정보제공서비스 등 응용서비스가 급속히 확산되고 있으며 사용자들은 각종 정보를 인터넷에서 용이하게 획득하고 있다. 또한 컴퓨터와 전화를 통합한 시스템인 CTI(Computer Telephony Integration)기술을 이용한 콜센터 구축이 활발하게 진행되고 있으며 점차 인터넷을 통한 웹환경과 맞물려가고 있다.
앞으로 전개될 정보시대에서 정보의 동맥이 인터넷이라는 사실을 상기하면 이같은 기술변화는 당연한 것인지도 모른다. 이와 같이 인터넷과 CTI를 이용한 서비스가 활성화됨에 따라 전화를 이용하여 인터넷상의 정보를 어디에서든지, 언제든지 획득할 수 있게 되었다. 이제 컴퓨터는 “말을 하고 듣는 PC”이어야 한다는 생각이 필수적으로 되어가고 있다. 특히 전자메일, 웹 브라우저 등 원격으로 정보를 접근할 경우 TTS 기술이 매우 유용하기 때문에 이 기술을 채택하는 업체가 점차 늘어나고 있다. 현재 TTS 기술을 활용할 수 있는 사업 분야로는 UMS(Unified System), 웹포탈 서비스, 통신사업 및 각종 응용 소프트웨어 개발(게임, 교육) 등이 될 수 있으며, 특히 E-mail reader, 합성기술을 사용한 게임기, Talking character, E-book reader, 각종 정보(일기예보, 교통, 증권 등)를 음성으로 제공, 웹의 내용·전자신문 등을 음성으로 변환, 시각장애자를 위한 화면 해설기(Screen reader), 자동통역시스템 등 다양한 분야에 응용할 수 있다.

4. 결론
TTS 기술은 텍스트를 음성으로 변환하는 기술로써 인터넷의 사용이 증가함에 따라 그 중요성도 커지고 있다. 이러한 추세에 맞춰 이번에 개발된 “외래어 기능이 보강된 한국어 음성합성기(글소리 version 5.0)”는 인터넷상 문서에 외래어가 빈번히 사용되는 점을 고려하여 외래어/뉴스용 데이타베이스를 보강, 외래어에 대해서도 자연스럽게 합성이 가능하도록 하였으며, 합성 데이타베이스내 음소분할 오류를 수정하였고, 복합어 경계 음운변동 처리, 강인한 텍스트 포맷팅 등 합성 알고리즘 개선으로 시스템의 안정성이 대폭 향상되었다. 특히 발화속도가 가변되어 사용자가 원하는 속도로 들을 수 있는 장점이 있다. 본 합성시스템은 E-mail reader, 음성 웹 브라우저 등에 활용가능하며 그외 활용범위가 매우 넓다고 할 수 있다.

                            Top ▲     


    전자통신기술정보    자료신청    Technical Info    기사제보    전문기술자료    회원등록(무료)