대화 데이터는 목적지향 대화와 주제대화, 일상대화 등 대화의 목적, 대화 서비스의 목표에 따라 다양한 대화 시나리오 구축 전략 및 태깅 전략이 필요하다.

기본 작업 프로세스는 대화 시나리오의 수집, 정제, 가공, 학습 단계를 밟는데, 

각 단계마다 사람이 직접 수작업에 의해서 또는 프로그램의 힘을 빌려 사람과 프로그램이 협업으로, 또는 프로그램만으로 작업이 진행될 수 있다.

대화 데이터는 대화시스템의 토대가 되는 주춧돌이며, 이 주춧돌이 한번 잘못된 방향으로 놓여지거나 기울어졌을 경우, 전체 시스템의 성능에 가장 큰 영향을 미치게 되므로, 초기 대화 데이터의 설계 전략이 가장 중요하다.

또한, 한번 잘못된 방식으로 설계가 될 경우, 수정이 단 시간에 불가능하며, 그에 따른 비용적인 손실도 엄청나게 발생한다. 

더구나, 대화 데이터를 한번 구축하고 끝나는 문제가 아니라, 시스템의 개선을 위해서 지속적으로 업그레이드되어야 하는 대상이다. 

즉, 시스템의 성능을 어떻게 개선할 것인가는 대화 데이터를 어떻게 구성할 것인가와 맞물려 돌아가야 한다. 

 

개인적으로는, 그 동안 수많은 대화 데이터 구축 경험을 가지고 있어서 필요로 하는 분에게는 도움을 드릴 수 있을 것 같다.

 

2021-02-21

bory.io 

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기