보리에서 동영상을 업로드하면 유창성 장애를 분석해주는 서비스(수다, SUDA)를 출시하였다.

이 서비스는 말더듬 조기 발견 및 중재를 목표로 하며, 장기간에 걸쳐 아동의 놀이 영상을 수집해서 말더듬 진행상황을 분석하는데 용이하다.

 

이 서비스는 IONIC Framework를 통해서 개발되었다. 

IONIC Framework는 HTML, CSS, JavaScript 같은 Web 기술을 이용하 여 Progressive Web Apps(PWAs), High-performance mobile을 지 원하기 때문에, iOS, ANDROID, WEB 등 다양한 이종 플랫폼에 서 작동되는 하이브리드 앱을 개발할 수 있다

 

 

SUDA의 전체 시스템 구성도는 다음과 같다. 스마트폰이나 태블릿 PC에 설치된 앱에서 사용자가 동영상을 녹화하고 전송 버튼을 누르면, 녹화된 파일이 대용량 파일 전송 기능을 통해 클라우드로 전송된다. 본 시스템에서는 스마트폰, 태블릿 PC, 디지털카메라 등으로 녹화된 mp4 동영상 파일 포맷을 사용한다. mp4 확장자의 동영상 파일이 업로드 되면 동영상에서 오디오 데이터만 추출되는데, 추출된 오디오 데이터는 모노 채널 16,000샘플링레이트의 wav 확장자 파일 포맷으로 저장된다.

 

동영상에 포함된 발화를 추출하기 위해서 내부적으로 다양한 방법이 적용되었다. 대표적으로 Attention model이 성능이 가장 좋았지만, 추론 시간이 14초로 가장 많이 소요되었다. 규칙기반 방법은 0.1초 정도 소요되지만 성능은 Attention model 대비 1/4정도라서, 시간적으로 구애받지 않는다면 Attention model을 적용하는게 효율적이다.

 

본 서비스는 앱을 제공한다.

홈 화면에서는 SUDA 사용설명서를 다운받아 앱 사용법에 대해 살펴볼 수 있다. 그리고 왼쪽 상단에 있는 버튼을 클릭하면 메뉴가 표시된다. 메뉴는 사용자에 따라 차별화되어 구성된다. 일반인용에서는 동영상 녹화 및 업로드, 영상 삭제 요청, 분석된 결과를 그래프로 볼 수 있는 통계 기능이 제공된다. 전문가용에서는 일반인용 기능에 비유창성, 언어, 말속도 분석 기능 이 추가되어 제공된다. 관리자용에서는 일반인용, 전문가용에 서 업로드된 모든 영상을 볼 수 있고, 분석과 모든 영상 삭제 기 능이 추가되어 제공된다.

동영상 녹화 화면에서는 사용자들이 녹화 시 주의해야 할 사항에 대해 안내하고, 버튼을 클릭하여 영상을 녹화할 수 있도록 한다. 업로드 기능에서는 방금 녹화한 영상뿐만 아니라 이전에 녹화했었던 영상도 업로드하기를 원할 때 전송 및 업로드할 수 있다. 동영상이 업로드 되면 삭제 요청 기능이 활성화되며, 관리자가 이를 확인한 후, 해당 동영상을 삭제한다.

비유창성 분석 화면에서는 발화, 화자, 아동의 비유창성을 분석할 수 있고, 각 발화에 해당되는 영상을 시청할 수 있다.

각 발화를 클릭하면, 발화, 화자, 영상 편집 화면이 나타난다. 앱이 자동으로 구분 및 전사해준 발화를 ‘인식된 발화’를 통해 확인할 수 있고, 전문가가 ‘수정된 발화’를 통해 직접 수정할 수 있다. 또한 화자와 영상도 전문가가 직접 수정할 수 있고, 비유창성 화면에서는 수정된 발화가 나타나게 된다.

각 발화의 ND와 AD를 클릭하면, 각 발화에서 나타난 ND와 AD의 유형별 수치를 입력할 수 있는 화면이 나타난다. Normal disfluency(ND)는 정상적 비유창성을, abnormal disfluency(AD) 는 비정상적인 비유창성을 의미하며, 국내에서 개발된 유창성 장애 검사도구인 파라다이스 유창성 검사-II(Sim et al., 2010)의 비유창성 분류 방식에 따라 각 유형별 수치를 입력한다. 유형별 수치를 입력하면, 비유창성 화면에서 각 발화에서 나타난 ND와 AD의 총합이 자동적으로 계산되어진다. 

통계 화면에서는 일간, 주간, 월간, 연간 기준에 따라 ND, AD 수치가 어떻게 변화하는지 그래프를 제시한다.

 

언어분석 화면에서는 각 발화의 형태소 수, 음절 수, 단어 수를 분석할 수 있다. 세 가지 항목은 자동적으로 분석된다. 

각 발화의 ‘형태소 수’를 클릭하면 형태소 편집 화면이, ‘음절 수’를 클릭하면 음절 편집 화면이, ‘단어 수’를 클릭하면 단어 편집 화면이 나타난다. 각 언어단위는 ‘/’ 기호를 통해 구분되어 진다. 앱이 자동적으로 계산해준 수치를 확인하였을 때 잘못 계산된 경우, 전문가가 ‘수정된 형태소’, ‘수정된 음절’, ‘수정된 단어’를 통해 직접 수정할 수 있고, 언어분석 화면에서는 수정된 각 분석 수치가 나타나게 된다.

 

 

각 발화에서 형태소, 음절, 단어분석이 완료되면 형태소의 경우, 평균 형태소 길이(Mean Length of Utterance in morphemes, 이하 MLU-m)로, 음절의 경우 총 음절 수로, 단어의 경우, 어휘다양도(Type-Token Ratio, 이하 TTR)를 자동적으로 계산한다. MLU-m은 각 발화의 형태소의 수를 총 발화의 수로 나누어 평균을 구한 것으로 지금까지 많이 사용되어 오고 있는 평균 발화 길이 척도이다(Kim, 2014). SUDA에서는 구체적인 대상이나 구체적인 상태를 나타내는 실질적 의미를 지닌 형태소인 실질 형태소(full morpheme)와 형식적 의미, 즉 문법적 의미를 지닌 형태소인 형식형태소(empty morpheme)를 모두 포함하였다 (Lee, 2008).

TTR은 아동이 사용한 총 낱말 중에서 다른 낱말의 비율이 얼마나 되는지 산출하는 것으로 아동이 얼마만큼 다양한 낱말을 사용하는가를 측정하는 가장 널리 알려진 방법이다(Kim, 2014). SDUA에서는 어휘적 의미를 가지고 의미적 정보를 전달하는 내용어와 문법적 기능을 가지고 있는 기능어를 모두 포함하였다 (Chon, 2010).

통계 화면에서는 일간, 주간, 월간, 연간 기준에 따라 MLU-m, 총 음절 수, TTR 수치가 어떻게 변화하는지 그래프를 제시한다.

 

말속도 화면에서는 각 발화로부터 말속도와 반응시간을 자동으로 계산해서 표시한다. 말속도는 각 발화의 음절수의 합을 전체 발화 소요시간으로 나눈 값으로 초당음절수(syllables per second, SPS)를 계산하였다(Kloth et al., 1998). 이때 2초 이상의 비정상적인 쉼의 지속시간은 제외하였다(Hall et al., 1999).

말속도는 값이 클수록 말속도가 빠르다는 것을 알 수 있다. 반응시간은 아동의 발화가 끝난 시간부터, 부모의 발화가 시작된 시간간격이다. 반응 시간이 짧을수록 부모의 말에 아동이 빠르게 반응했음을 알 수 있다. 통계 화면에서는 일간, 주간, 월간, 연간 기준에 따라 말속도와 반응시간 수치가 어떻게 변화하는지 그래프를 제시한다

 

바로가기

 

수다(SUDA) – 동영상 기반 언어장애 심층 분석기 - Google Play 앱

수다(SUDA)의 의미는 동영상 기반 언어장애 심층 분석기(Smart Utterance Deep Analyzer)라는 의미입니다. 영상을 등록하고, 그 영상속 발화자들의 발달정도를 측정하고 분석합니다. 부모와 아동의 대화영

play.google.com

자세한 것은 아래 논문을 참조 바란다.

pss-12-2-63.pdf
0.98MB

 

 

지혜를 향한 여정 - bory.io

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기