当該コンテンツは、ローカリゼーションサービスを準備しております。早急にローカライズサービスをご提供できるよう、努めております。
目次
CLOVA Speechサービス
NAVERクラウドプラットフォームのCLOVA Speechサービスは、CLOVAのNEST(Neural End-to-end Speech Transcriber)音声認識技術を通じて、素早く簡単にメディア(動画)の音声認識を提供します。
既存のNAVERプラットフォームの音声認識サービスであるCSR(CLOVA Speech Recognition)サービスが1分以内の命令型音声認識に最適化された反面、CLOVA Speechは長さの長いオーディオビデオファイルをアップロードし、そのオーディオビデオファイルの音声認識結果を確認できます。
CLOVA Speechエンジンの特徴
- 高い性能の韓国語長文ディクテーション
- メディア認識に強いモデル
- 電話網音声認識を強化したモデル
- 持続的な品質向上で賢くなるNESTエンジン
- 文章の自動分離及びタイムスタンプに対応
- 認識結果修正エディタ提供
CLOVA Speech提供機能
CLOVA Speechは、API以外にも別途のウェブビルダーが提供され、CLOVA Speechビルダーを通じてファイルをアップロードして、アップロードされたファイルの認識結果をすぐに確認できます。 また、これをすぐに修正して字幕形式でダウンロードすることもできます。
API呼び出し方式
- 各ドメインは、固有のAPI呼び出しURLを提供します。
- API呼び出しURLで音声認識をするオリジナルのファイルを送り、エンジンで処理した結果値の応答を受けます。
- 詳しいスペックは「CLOVA Speech API参照書」をご参照ください。
- APIで呼び出した場合、認識結果修正エディタは使用できません。
CLOVA Speechビルダーの使い方
- ドメインを作成後、CLOVA Speechビルダーを使用するとUI環境に認識作業を要請します。
- 音声認識作業のためのオリジナルファイルは、Object Storageから取得したり、ファイルアップロードを通じて設定できます。
- 音声認識ジョブは、ジョブリストで処理状態および結果を確認することができます。
- CLOVA Speechビルダーによる作業要請時に認識結果を編集します。
CLOVA Speech使用
CLOVA Speech使用のためには、コンソールによるドメイン作成及びObject Storage作成手続きが必要です。 ドメイン別に音声認識対象ファイルと結果ファイルの保存パスを別途に管理でき、ドメイン別に提供されるビルダーまたはAPI Keyを通じて認識作業を開始できます。
ドメイン生成
CLOVA Speech商品のご利用お申し込みの後、ドメイン作成が必要です。
ドメインメニューで現在作成されたドメインリストを確認でき、ドメインリストを管理できます。
ドメインリストからドメインを選択し、[ビルダー実行]ボタンをクリックして、当該ドメインのCLOVA Speechビルダーに移動できます。
[ドメイン作成]ボタンを押すと、ドメインを作成することができます。
ドメイン作成時にドメイン名とコード、ドメインタイプの選択、認識対象と結果ファイルを保存するObject Storageパスの入力が必要です。
- Object StorageはCLOVA Speech商品の必須連動商品です。 Object Storageの商品利用申請がされていない場合は、Object Strogeを申請できるポップアップが表示されます。 当該ポップアップでObject Storageのコンソールに移動し、Object Storageの利用申請及びBucketを作成することができます。
Freeドメインタイプは毎月、一定認識時間が無料でご利用いただけます。 ただし、1アカウントにつき1つのFreeドメインのみ作成可能です。
情報を入力した後、[保存]ボタンをクリックするとドメイン生成が完了し、ドメインリストから当該ドメインの[ビルダー実行]ボタンをクリックして、CLOVA Speechビルダーを実行できます。
API呼び出し方式による認識作業のリクエスト
CLOVA Speech API呼び出しURLで音声認識をするオリジナルのファイルを送り、エンジンで処理した結果値をjson形式でリターンを受ける方法を案内します。
まず、CLOVA Speechサービスビルダーの設定メニューに移動します。
「設定 > 連動情報」から各ドメインが持つSecret KeyとCLOVA Speech Invoke URLを確認します。
- オリジナルファイルであるObject storageにある場合、該当メディアファイルの位置を認識してCLOVA Speechエンジンに作業を要請します。
- オリジナルのファイルが外部URLである場合、そのパスのファイルを受け取ってCLOVA Speechエンジンに作業を要請します。
詳しいスペックは「CLOVA Speech API参照書」をご参照ください。 APIで呼び出した場合、認識結果修正エディタは使用できません。
ビルダーによる認識作業の要請
認識作業要請
ドメインを作成した後、CLOVA Speechビルダーを使用すると、UI環境に認識作業を要請することができます。 CLOVA Speechビルダーでは認識作業リクエストを生成し、各作業のリストと進行状況を確認することができます。
オリジナルファイルのアップロード
オブジェクトストレージから選択 ドメイン作成時に設定したオブジェクトストレージのbucketで認識作業を要請するファイルを選択できます。
ファイルアップロード選択 ローカル ファイル システムで持っているメディア ファイルを選択し、認識作業を要請することができます。
また、認識を進行するオリジナルのファイルを選択しながら、認識結果を保存する位置を指定することができます。
音声認識作業 Processing
CLOVA Speechエンジンでは、作業要請リストにある作業を順次認識処理を進めます。 各ファイルの音声認識ジョブの状態は次の状態のいずれかで表現されます。
- 作業待ち
- 作業中
- 作業完了
- 作業失敗
- キャンセル中
- キャンセル完了
認識結果編集エディタ
認識が完了したタスクは、認識結果のタスク エディタを通じて映像および認識されたテキストを一緒に確認することができます。 作業完了状態の作業は、作業リストで [認識結果の編集] ボタンが表示され、該当ボタンをクリックして、認識結果エディタに移動することができます。
認識を要請したオーディオビデオ ファイルで認識したテキストをタイムライン形式で確認できます。
映像の再生時、タイムラインで現在再生中の音声に該当するテキストがハイライトして表示されます。
認識された結果は、自由に編集することができ、編集された内容を簡単に認識できるように別途の色で表示します。
- [エクスポート]ボタンをクリックして、認識結果をObject StorageまたはユーザのLocal環境にダウンロードできます。 json、smi、csv、xls、srtの形式でダウンロードできます。