국내 벤처기업이 인공지능(AI) 딥러닝 학습효과가 개선된 음성변환 모델 개발에 성공했다.
AI 헬스케어업체 뷰노는 자체 개발한 인공지능 음성인식을 위한 음성변환 모델 관련 논문이 음성 및 신호처리 분야 국제 저명 학회지 ‘ICASSP’(신호처리국제학술대회)에 등재됐다고 13일 밝혔다.
뷰노에 따르면, AI 딥러닝 기법은 많은 양의 다양한 데이터를 학습시킬수록 그 성능이 더욱 좋아지게 된다.
하지만 현실적으로 학습데이터를 새로 수집하는데 많은 시간과 인력 그리고 재원이 들어가는 한계점이 있다.
이를 해결하기 위해 현재 보유한 학습데이터를 변환해 새로운 데이터를 늘리는 ‘데이터 증강 기법’을 사용하게 된다.
이는 음성인식에도 마찬가지다.
새로운 음성데이터셋 즉, 음성과 텍스트가 쌍을 이루고 있는 데이터를 모으기보다는 이미 확보한 음성데이터를 다양한 방법으로 변환해 사용한다.
하지만 기존 변환기술로는 음의 높낮이 변화나 노이즈 등 많은 부분이 닮아 있어 학습데이터로서 가치가 제한적이었다.
뷰노는 자체 개발기술로 기존 변환기법에 부가해 언어 특징과 음성 아이덴티티를 이용하는 기법으로 새로운 특징을 갖는 음성데이터로 변환하는데 성공했다.
이는 적은 양의 데이터셋으로도 충분한 학습데이터를 생성할 수 있어 AI 딥러닝에 큰 기여를 하게 되며, 실제 벤치마크 데이터인 Wall Street Journal로 실험한 결과 최종 인식 성능이 드라마틱하게 개선된 결과가 확인됐다.
연구를 주도한 왕지성 뷰노 연구원은 “국내 음성인식 개발환경에서는 영어권과는 달리 기구축된 한국인 음성데이터셋이 제한돼 있다”며 “이번 개발기술로 다양한 음성데이터셋을 생성할 수 있어 음성인식 성능이 비약적으로 향상될 것으로 기대된다”고 밝혔다.
뷰노는 이 기술을 적용한 의료기록 음성인식 솔루션을 이대목동병원과 함께 성공적으로 개발을 완료했다.
해당 소프트웨어는 현재 이대목동병원을 비롯한 다수 병원에서 전사 업무에 활용되고 있으며 다양한 분야로 사용 확대가 진행 중이다.