목차

CLOVA Speech 서비스

네이버 클라우드 플랫폼의 CLOVA Speech 서비스는 CLOVA의 NEST(Neural End-to-end Speech Transcriber) 음성 인식 기술을 통해 빠르고 쉽게 미디어(동영상)의 음성인식을 제공합니다.

기존 네이버 플랫폼의 음성인식 서비스인 CSR(CLOVA Speech Recognition)서비스가 1분 이내의 명령형 음성 인식에 최적화된 반면, CLOVA Speech는 길이가 긴 오디오/비디오 파일을 업로드 하여 해당 오디오/비디오 파일의 음성 인식 결과를 확인할 수 있습니다.

CLOVA Speech 엔진의 특징

  • 높은 성능의 한국어 장문 딕테이션
  • 미디어 인식에 강한 모델
  • 전화망 음성 인식을 강화한 모델
  • 지속적인 품질 향상으로 똑똑해지는 NEST 엔진
  • 문장 자동 분리 및 타임 스탬프 지원
  • 인식결과 수정 에디터 제공

CLOVA Speech 제공 기능

CLOVA Speech는 API외에도 별도 웹 빌더가 제공되며, CLOVA Speech 빌더를 통해 파일을 업로드하고, 업로드된 파일의 인식 결과를 바로 확인할 수 있습니다. 또한, 이를 바로 수정하여 자막 형태로 다운로드 할 수 있습니다.

  • API 호출 방식

    • 각 도메인은 고유의 API 호출 URL을 제공합니다.
    • API 호출 URL로 음성 인식을 할 원본 파일을 보내고, 엔진에서 처리한 결과값을 응답받습니다.
    • 자세한 스펙은 [CLOVA Speech API 참조서]를 참고하시기 바랍니다.
    • API로 호출한 경우, 인식결과 수정 에디터는 사용할 수 없습니다.
  • CLOVA Speech 빌더 사용방식

    • 도메인을 생성 후 CLOVA Speech 빌더를 사용하면 UI 환경으로 인식 작업을 요청합니다.
    • 음성 인식 작업을 위한 원본 파일은 Object Storage 에서 가져오거나, 파일 업로드를 통해서 설정할수 있습니다.
    • 음성 인식 작업은 작업 목록에서 처리 상태 및 결과를 확인 할 수 있습니다.
    • CLOVA Speech 빌더를 통한 작업 요청시, 인식결과를 편집을 제공합니다.

CLOVA Speech 사용

CLOVA Speech 사용을 위해서는 콘솔을 통해 도메인 생성 및 Object Storage 생성 절차가 필요합니다. 도메인 별로 음성 인식 대상 파일 및 결과 파일의 저장 경로를 별도로 관리할 수 있으며, 도메인 별로 제공되는 빌더 또는 API Key를 통해 인식 작업을 시작할 수 있습니다.

도메인 생성

CLOVA Speech 상품의 이용 신청 후, 도메인 생성이 필요합니다.

  • 도메인 메뉴를 통해 현재 생성된 도메인 목록을 확인할 수 있으며, 도메인 목록을 관리할 수 있습니다.

  • 도메인 목록에서 도메인 선택 후, [빌더 실행] 버튼을 클릭하여 해당 도메인의 CLOVA Speech 빌더로 이동할 수 있습니다.

  • [도메인 생성] 버튼을 클릭하여 도메인을 생성할 수 있습니다.

  • 도메인 생성 시 도메인 이름 및 코드, 도메인 유형 선택, 인식 대상 및 결과 파일을 저장할 Object Storage 경로의 입력이 필요합니다.

    • Object Storage는 CLOVA Speech 상품의 필수 연동 상품입니다. 만약 Object Storage의 상품 이용 신청이 되어있지 않은 경우 Object Stroge를 신청할 수 있는 팝업이 표시됩니다. 해당 팝업을 통해 Object Storage의 콘솔로 이동하여 Object Storage의 이용 신청 및 Bucket을 생성할 수 있습니다.
  • Free 도메인 유형은 매월 일정 인식 시간을 무료로 이용할 수 있습니다. 다만 1계정당 1개의 Free 도메인만 생성 가능합니다.

  • 정보 입력 후, [저장] 버튼을 클릭하면 도메인 생성이 완료되며 도메인 목록에서 해당 도메인의 [빌더 실행] 버튼을 클릭하여 CLOVA Speech 빌더를 실행할 수 있습니다.

API 호출 방식을 통한 인식 작업 요청

CLOVA Speech API 호출 URL로 음성 인식을 할 원본 파일을 보내고, 엔진에서 처리한 결과값을 json 형태로 리턴받는 방법을 안내합니다.

먼저 CLVOA Speech 서비스 빌더의 설정메뉴로 이동합니다.

'설정 > 연동정보' 에서 각 도메인이 가진 Secret Key 와 CLOVA Speech Invoke URL 을 확인합니다.

  • 원본 파일인 Object storage 에 있는 경우, 해당 미디어 파일의 위치를 인식하여 CLOVA Speech 엔진에 작업을 요청합니다.
  • 원본 파일이 외부 URL인 경우, 해당 경로의 파일을 받아서 CLOVA Speech 엔진에 작업을 요청합니다.

    자세한 스펙은 [CLOVA Speech API 참조서]를 참고하시기 바랍니다. API로 호출한 경우, 인식결과 수정 에디터는 사용할 수 없습니다.

빌더를 통한 인식 작업 요청

  1. 인식 작업 요청

  2. 도메인을 생성 후 CLOVA Speech 빌더를 사용하면 UI 환경으로 인식 작업을 요청할 수 있습니다. CLOVA Speech 빌더에서는 인식 작업 요청을 생성하고, 각 작업들의 목록과 진행상황을 확인할 수 있습니다.

  1. 원본 파일 업로드

    • 오브젝트 스토리지에서 선택 도메인 생성시에 설정한 오브젝트 스토리지의 bucket에서 인식작업을 요청할 파일을 선택할 수 있습니다.

    • 파일 업로드 선택 로컬 파일 시스템에서 가지고 있는 미디어 파일을 선택하여 인식작업을 요청할 수 있습니다.

또한, 인식을 진행할 원본 파일들을 선택하면서, 인식결과를 저장할 위치를 지정할 수 있습니다.

  1. 음성인식 작업 Processing

    • CLOVA Speech 엔진에서는 작업 요청 목록에 있는 작업들을 순차적으로 인식처리를 진행합니다. 각 파일의 음성인식 작업 상태는 다음의 상태중의 하나로 표현됩니다.

      • 작업 대기
      • 작업중
      • 작업완료
      • 작업 실패
      • 취소중
      • 취소 완료

인식 결과 편집 에디터

인식이 완료된 작업은 인식 결과 작업 에디터를 통해 영상 및 인식된 텍스트를 함께 확인할 수 있습니다. 작업 완료 상태인 작업은 작업 목록에서 [인식 결과 편집] 버튼이 표시되며, 해당 버튼을 클릭하여 인식 결과 에디터로 이동할 수 있습니다.

  • 인식 요청한 오디오/비디오 파일에서 인식한 텍스트를 타임라인 형태로 확인할 수 있습니다.

  • 영상 재생 시, 타임라인에서 현재 재생 중인 음성에 해당하는 텍스트가 하이라이팅되어 표시됩니다.

  • 인식된 결과는 자유롭게 편집할 수 있으며, 편집된 내용을 손쉽게 인식할 수 있도록 별도 색상으로 표시합니다.

  • [내보내기] 버튼을 클릭하여 인식 결과를 Object Storage 또는 사용자의 Local 환경으로 다운로드할 수 있습니다. json, smi, csv, xls, srt 형식으로 다운로드 할 수 있습니다.

""에 대한 건이 검색되었습니다.

    ""에 대한 검색 결과가 없습니다.

    처리중...