-
영어 음성 인식에 도전하다.Personal 2015. 6. 6. 00:24
영어 음성 인식에 도전하다.
공부하는 학생들이 영어 강의를 수강하거나, 직장인이 영어로 컨퍼런스 콜을 하거나 연수에 참가하는 경우 영어를 듣고 바로 이해하는 것이 솔직히 쉽지 않다. 그 순간에는 어느 정도 이해가 되지만 시간이 지날수록 급격하게 기억이 사라지는 경우가 많다.
휴대 전화의 보급으로 핸드폰에서 쉽게 녹음을 할수 있게 되었다. 개인적으로 영어 연수 이후에 연수 내용을 따로 정리하고 싶어 해당 각 강의별로 녹음을 했다. 녹음한 것을 다시 들어 보니 그 때 당시의 분위기와 내용을 기억할 수 있어서 유익했습니다. 하지만, 역시나 듣고 기록하는 어려움이 있어 음성을 인식해서 문장으로 인식하는 Dictation 을 찾아 보게 되었다.
Dragon 사에서 오랜 기간동안 영어 인식 기술을 연구하여 NaturallySpeaking 이라는 프로그램으로 출시하였다. 실제로 잠깐 설치해 보았는데, 마이크를 통한 실시간 문장 인식기능이나 녹음 파일에 대한 인식 기능이 매우 뛰어 났다. 하지만 기능 측면에서 voicebase 보다는 떨어 지는 느낌이라서 voicebase 를 소개합니다.
해당 사이트는 별도의 프로그램 설치 없이 온라인으로 음성 인식이 가능합니다.
오른쪽 상단 'Free Sign Up' 을 해보겠습니다.
해당 사이트는 아이디당 200시간의 음성이나 20시간 영상에 대해서 음성 인식을 해줍니다. 실제로 영상 인식은 해보지 않았지만 영상을 온라인으로 replay 기능도 가능할 것 같습니다.
회원 가입 후에 오른쪽 상단에 'Upload' 버튼을 눌르면 upload 할수 있는 화면이 나타납니다.
'Add Files' 버튼을 눌러서 오디로 파일을 올려보면, 실제로 upload 하는 시간과 음성을 인식해서 변환하는 시간이 별도로 필요합니다. 또한 음성 인식 방식이 기계에 의한 인식과 사람에 의한 인식이 있는데, 기계는 바로 인식이 가능하고 사람의 경우는 2~3일이 걸린다고 합니다.
File Upload 는 바로 되나 기계에 의한 인식은 처리 시간이 파일 크기에 따라 1시간 정도 걸립니다. 인식이 완료된 이후에는 별도로 아래 같이 로그인한 이메일로 통보가 됩니다.
<음식 인식 완료 후 이메일 통보 화면>
.자 이제 음성 인식된 파일을 들어 보겠습니다.
화면에서 보이는 것과 같이 Audio 를 play 버튼을 눌러 보면 upload 한 파일이 replay 되면서 MACHINE TRANSCRIPT 를 읽어 주는 것을 알 수 있습니다. 사실 녹음 파일의 품질에 따라서 음성 인식률이 크게 차이가 나는 것을 알수 있습니다. 멀리서 녹음한 파일과 가까이서 녹음한 파일의 차이가 엄청나게 큽니다.
Replay 시 장점은 바로 음성과 함께 그부분을 인식한 내용의 위치가 표시된다는 것입니다.
위 화면 캡처에서도 "sorry best means ~" 부분이 음영으로 표시되면서 음성의 현재 위치를 나타내 주고 있습니다.
이외에 몇가지 기능에 대해서 추가로 소개하겠습니다.
1. Keyword 검색 기능
TRANSCRIPT 안에서 나오는 단어를 정리하여 빈도수와 함께 보여줍니다. 실제로 internal tool 이라는 구문을 클릭한 모습인데 클릭 후에는 해당 script 위치로 이동하여 그 시점의 오디오 파일을 읽어 주어 매우 유용한 기능입니다.
2. Script Download
TRANSCRIPT 내용을 PDF , RTF, SRT 형태로 다운로드 받을 수 있습니다.
3. Read Mode(안경 모양 아이콘)
안경 모양 아이콘을 클릭하면 Full screen mode로 변환되어 음성과 script 내용에 집중할 수 있습니다.
이상으로 voicebase 의 영문 음성인식에 대하여 소개하였습니다.
좋은 강연(ted, podcast 등)을 스크립트와 함께 공부할 수 있다면 지식도 쌓을 수 있고 영어 공부에 많은 도움이 될 것으로 생각됩니다. 많은 도움이 되었기를 바랍니다.