본문 바로가기

미션파서블/개인 미션

장애인들을 위한 기술

장애인들을 위한 기술

 

대전샘머리 초등학교 김건우

인공지능의 도움

요즈음 인공지능이 이슈가 되고 있고, 인공지능의 활동분야도 다양해지고 있어서 인공지능이 장애인에게 주는 도움을 조사하게 되었다.

시각장애인들에게 있어 디지털 세계는 접촉하기 힘든 먼 나라 이야기에 불과했다. 그러나 최근 인공지능, 컴퓨터영상, 영상인식 기술이 급속히 발전하면서 시각장애인과 디지털 세계를 연결해주는 기술들이 속속 개발되고 있다.

7일 영국의 소비자 중심 과학기술 비평지 ‘알퍼(alphr)’에 따르면 기술개발 선두에 서 있는 기업들 중에는 스타트업도 포함돼 있다. 태블릿 등 새로운 발상의 기기를 만들어 시각장애인이 인터넷에 접속할 수 있는 가교 역할을 하고 있다.

호주의 스타트업 ‘BLITAB’이 대표적인 경우다. 이곳에서는 시각장애인들이 사용할 수 있는 태블릿을 제작했다. 이 태블릿은 전자책(e Book)과 비슷하게 생겼지만 자세히 들여다보면 매우 다르다. 일반 태블릿처럼 스크린을 사용하는 대신 점자판을 사용한다.

<출처 : blitab.com>

 

주변 이미지 인식해 사람 언어로 설명 

시각장애인들은 이 점자판을 통해 정보를 음성으로 변환한 ‘터치 투 스피치( text-to-speech)’, 손가락으로 접촉할 수 있는 ‘터치 네비게이션(touch navigation)’ 등의 기능을 경험할 수 있다.

태블릿과 대화를 하면서 다양한 인터넷과 접촉할 수 있는 방식이다. BLITAB의 설립자인 크리스티나 츠베타노바(Kristina Tsvetanova) CEO는 “시각장애인들이 접촉과 소리를 통해 새로운 정보를 접촉하고, 또 새로운 정보를 입력할 수 있다”고 말했다.

BLTIAB에서는 현재 시각장애인들이 소통할 수 있는 플랫폼을 구축하고 있다. 플랫폼 안에 시각장애인들이 사용할 수 있는 다양한 소프트웨어를 축적하고 있는 중이다. 츠베타노바 CEO는 “전통적인 개념을 넘어선 새로운 솔루션들이 개발되고 있다”고 말했다.

인공지능을 활용하는 사례도 등장하고 있다. 페이스북은 AI 기술을 활용, 이미지 인식 기술을 메모리 네트워크(MemNets)과 접목시키는 방안을 개발하고 있다. ‘비쥬얼 Q&A’란 이름의 이 솔루션은 ’사진 속에 무엇이 있니?‘라고 물으면 그 내용을 상세히 설명해주는 방식이다.

욕조 속에서 놀고 있는 아기 사진을 보고 ‘아기가 어디 있니?’ 하고 물으면 ‘욕조 안에 있다’고 답변하고, ‘무엇을 하고 있니?’ 하고 물으면 ‘이를 닦고 있다’고 답변해주는 식이다. 영상 인식이 가능한 것은 첨단 인공지능 때문이다.

딥러닝 방식에 사람처럼 추상화된 정보를 해석할 수 있는 나선구조신경망 (CNN, Convolutional Neural Network)을 추가했는데, 이를 통해 언어와 영상을 동시에 이해할 수 있는 능력이 보완되고 있다.

최근 열린 기술 발표회에서 페이스북 관계자는 “영화 ‘반지의 제왕’을 보고 10만 개의 질문을 주고받는 등 다양한 방식으로 정확도를 높여가고 있다”고 말했다. 페이스북에서는 앞으로 이 인공지능 기술이 시각장애인을 도울 수 있을 것으로 보고 있다.

 

AI가 영상·언어 함께 이해할 수 있어 

마이크로 소프트(MS)에서도 인공지능을 통해 사람의 시각을 보완할 수 있는 기술을 개발하고 있다. 지난달에 열린 ‘빌드(Build)’ 컨퍼런스에서 사람이 접촉하는 그때그때의 상황을 실시간으로 영상 인식해 설명해줄 수 있는 능력을 개발하고 있다고 밝혔다.

책을 잃는 것은 물론 영화를 보고, 사람의 얼굴 표정까지 읽고 해석하는 기능이 여기에 포함된다. 영상을 말로 설명해줄 수 있는 인공지능 기능이 완성될 경우 특히 시각장애인들에게 주변 상황을 시각적으로 이해할 수 있는 길이 열릴 것으로 보인다.

 

<출처 : naver이미지>

 

시각장애인들을 위한 기술로 ‘에이폴리(Aipoly)’도 있다. 시각 장애인을 위해 모바일 앱으로 스마트폰 등에 설치하면 눈앞의 물체나 장면을 분석해 음성으로 설명해준다. 이 앱을 개발한 ‘에어폴리‘는 실리콘밸리 소재 싱귤레리티 대학에서 설립한 스타트업이다.

<출처 : naver이미지>

 

그동안 미국 항공우주국 에임즈 연구센터(NASA Ames Research Center)와 협력해 인간 삶에 있어 접할 수 있는 주변 상황을 영상으로 인식할 수 있는 능력과 이를 말로 설명할 수 있는 능력을 업그레이드시켜왔다.

이 앱을 통해 사용자들은 자신의 주변에서 일어나는 약 5000개 유형의 상황을 설명하는 것을 들으면서 삶을 영위해나갈 수 있다. 흥미로운 것은 눈앞에 벌어지는 일뿐만 아니라 멀리 떨어져 있는 집안, 혹은 사무실 상황까지 감독할 수 있다는 점이다.

에어폴리 공동설립자인 알베르토 리졸리(Alberto Rizzoli) CEO는 “현재 진행하고 있는 영상과 언어 해석을 위한 업그레드 작업이 완성되면 눈을 감고서도 주변 상황을 상세하게 인식할 수 있는 길이 열리게 된다”고 말했다.

에어폴리에서는 현재 ‘알파고’왁 유사한 인공지능 시스템 테라 딥러닝(Tera Deep Learning) 시스템에 추상적인 언어·영상 이해가 가능한 나선구조신경망(CNN)을 결합해 인공지능의 능력을 확대하고 있는 중이다.

리졸리 CEO는 “현재 약 1000만 개의 이미지를 입력했으며, 이들 이미지를 사람처럼 이해하고 설명할 수 있는 언어 훈련을 시키고 있다”고 말했다. 그는 또 “이 기술이 시각장애인을 비롯 시각적인 어려움을 겪고 있는 사람들에게 큰 도움을 줄 것”이라고 말했다.

 

인공지능 의사

<출처 : naver이미지>

위사진은 인공지능의사 왓슨이다.

IBM의 왓슨(Watson)은 인간의 언어를 이해하고 판단하는데 최적화된 인공지능 슈퍼컴퓨터다. 왓슨은 8개의 코어 프로세서가 장착된(각 장치 당 4개로, 총 32개) IBM 파워 750 익스프레스(IBM Power 750 Express) 서버 90개로 구성이 되어 있고 이 클러스터 시스템은 2,880개의 코어와 16TB의 메모리를 장착하고 있다. 또 서버는 KVM(Kernel-Based Virtual Machine: 커널기반 가상화)을 사용해 가상화되어 있었다. 이는 총 80테라플롭(Teraflops)의 처리 능력을 갖춘 서버 클러스터(군)를 구성하는데 테라플롭이란 1초에 1조 회를 연산할 수 있다는 의미이다. 이제 드디어 조 단위가 나온다.

왓슨은 지난 2011년 2월, 미국 제퍼디 퀴즈쇼에 참가해 그 성능을 입증한 바가 있다. 당시 전설적인 퀴즈의 달인들을 물리치고 우승을 차지해 화제를 불러 일으켰다. 왓슨은 복잡하고 방대한 인간의 언어를 이해하고 각 단어들의 상관관계를 분석해서 답을 도출해 내는 능력이 탁월하다. 현재 왓슨은 이미 제퍼디에서 우승을 했을 때와 비교했을 때 연산력은 그대로지만 그 크기는 크게 작아진 상태이다. 또한 처음 개발됐을 당시보다 속도가 2~2.5배 빨라졌고 당시의 1/6에 불과한 서버를 기반으로 소프트웨어를 실행시키고 있다. 단지 몇 년이 지났을 뿐인데 기술이 정말 빠르게 발전한다.

IBM 과학자들이 왓슨 기능을 개선하기 위해 노력 중인 또 다른 분야로는 비구조화 데이터 처리 능력을 들 수 있다. 의사들의 메모, 전문 의료 저널 및 과학 저널, 방사선 이미지, 무선 모니터링 장치의 바이오피드백, 환자들의 온라인 커뮤니티에 올라온 코멘트 등을 예로 들 수 있다. 모두 데이터 애널리틱스(analytics)에 사용되는 정보들이다. 왓슨의 테라플롭 단위의 처리 능력은 인간 유전체 연구 등에 집중 활용할 수 있을 것이라고 전망되고 있다. 왓슨을 비롯한 다른 슈퍼컴퓨터들이 방대한 유전자 서열 데이터를 이용해 환자에게 가장 적합한 치료법을 파악할 수 있게 될 것이고, 이는 맞춤화된 의료 시대의 개막을 알리는 기술이기도 하다.

IBM의 관계자에 따르면 왓슨은 2020년에는 손에 들고 다닐 수 있는 크기의 장치가 될 것이라고 전망하고 있다.