본문 바로가기

미션파서블/개인 미션

음성 인식 기술의 변화와 최신 기술

음성 인식 기술의 변화와 최신 기술

                                               어은초 조지웅기자

 

1. 1960~1970년대

 

 최초의 음성 인식 시스템은 숫자만 알아들을 수 있었다. 하지만 1962 IBM에서 16개의 영어 단어를 인식하는 슈박스를 만들었다.

 

                                         [슈박스]

 

2.1970~1980년대

 1971년부터 1976년까지 진행된 미 국방부의 음성 이해 연구 프로그램은 하피음성 이해 시스템의 기반이 되었다.

[미 국방부의 음성이해 연구 프로젝트]

 

3. 1980~2000년대

 1985년의 '커즈웨일 텍스트 투 스피치' 프로그램은 1000개의 단어를 인식하고 5000단어의 어휘를 지원했으며, IBM의 시스템도 유사한 기능을 가지고 있었다. 그러나 아직 문제점이 있었다. 프로그램 사용자는 각 단어를 구분해서 말해야 했다.

 

 1997년 훨씬 발전한 '드래곤 내추럴스피킹'이 출시되었다. 이 앱은 연속적으로 단어를 말할 때 나오는 발음들을 이해할 수 있었기 때문에 사용자는 보다 자연스럽게 이야기 할 수 있었다. 하지만 사용자를 인식하는데 45분이나 걸렸다.

 

4. 2000~2020년대

 애플은 2011년 10월 음성 인식 인공지능 소프트웨어 '시리(Siri)'를 공개했다. 아이폰 사용자가 말을 하면 그 내용을 분석한 뒤 대답을 들려주거나 앱을 작동시키는 프로그램이었다.

 시리는 사용자에 대해 알고 있는 것을 사용하여 맥락에 맞는 응답을 생성하고 개성 있게 대답한다. 시리는 편리한 음성 인식 기술로 평가 받고 있다.

 

 [시리] 

 5. SK텔레콤의 '누구'

 

 SK텔레콤이 만든 ‘누구(Nugu)’는 색다른 디자인의 스피커처럼 보이지만 다양한 기능을 지원하는 음성인식 인공지능 디바이스다. 말 그대로 명령을 내리면 음악을 재생해주거나 다양한 정보를 알려준다. 현재 시간이나 날씨, 스케줄, 최신 뉴스는 물론 음악, 라디오 등을 들려주는 만큼 단순한 스피커 이상의 기능을 선보인다.

 

 '누구'는 스스로 아무런 답을 줄 수 없다. '누구'는 마이크를 통해 들은 사람의 말을 클라우드 서버로 전송한다.  음성 정보를 찾아 '누구'로 보낸다. '누구'가 음성으로 알려주는 정보 중 대부분은 성우가 먼저 녹음해 놓은 문장과 단어 중에서 검색한 결과다. 반면 가수나 노래 제목 등은 TTS라고 불리는 '텍스트 음성 변환' 기술을 사용해 정보를 알려준다.

 

                                 [SKT의 '누구']

 

  

 

 누구는 음성인식 디바이스인 만큼 음성으로 명령을 내려줘야 한다.이름을 정하여서 부르면 그때부터 음성을 인식 한다.

 

6. 기자의 의견

 

 이제는 음성인식 기술이 점점 더 좋아지고 있다. 앞으로는 음성인식을 넘어 감정인식이나 영상인식도 가능 할 것이다.