CLOVA OCR使用ガイド
CLOVA OCRサービスを用いて、画像や文書からテキストを簡単で速やかに抽出できます。以下の手順に従ってOCRビルダーを使用してください。
CLOVA OCRを使用する
コンソールにアクセスした後、次の手順に従って簡単にサービスを利用できます。
- Step 1. サービス利用申請及び規約への同意
- Step 2. ドメインの作成
- Step 3. テンプレートの作成
- Step 4. テスト・分析
- Step 5. コンポーネント
- Step 6. 設定
- Step 7. リリース管理
Step 1. サービス利用申請及び規約への同意
CLOVA OCRサービスを利用するためには、利用申請及び規約への同意が必要です。
本サービスの利用規約には、CLOVA OCRで発生するデータの保管及び利用に関する内容をはじめ、個人情報の委託及び受託、会社の義務及び顧客の義務に関する内容が含まれています。サービスを企画する前に規約の内容を必ず確認してください。
「商品利用申請」 をクリックして規約に同意し、次の段階に移動します。
Step 2. ドメインの作成
本格的にCLOVA OCRサービスを作るためにドメインを作成します。
ドメインはCLOVA OCRサービスの基準となる単位です。 例えば、「告知書」のOCRを作成する場合、認識対象となるすべての告知書テンプレートを含む単位がドメインになります。テンプレートの作成からチャンネル連携、統計情報まで、一つのドメインを基準に運用・管理されています。
① 「ドメインを作成」 をクリックしてドメインを作成します。
② ドメイン名とドメインコードを入力します。
ドメイン名/ドメインコード:1文字以上50文字以内で入力できますが、その値は一意である必要があり、他と重複してはいけません。
OCRビルダー内の「入力フィールド」に入力できる文字:ハングル、半角英大文字、半角英小文字、全角カタカナ、全角ひらがな、漢字、一部の特殊文字(? & 。_ - × 々).
ただし、ドメインコードの場合、半角英大文字、半角英小文字と一部の特殊文字(. ? & 。_ - × 々)のみ入力できます。
サポート言語:韓国語または日本語のいずれかを選択します。英語は基本的にサポートされているため、いずれかのサポート言語と英語が混在した文書の場合、その言語の文字と英文字をどちらも認識できます。
サービスタイプ:テキストの抽出にのみ対応しているGeneralタイプと、テンプレートビルダーを提供するTemplateタイプで構成されています。Generalタイプは、Regionごとに一つのGeneralドメイン(Text OCR実行)のみ作成できます。Templateタイプを選択すると、サービスモデルとサービスプランに関する項目が表示されます。
- サービスモデル:基本的な性能を提供するBasicモデルと、さらに向上した認識率を提供するPremiumモデル(筆記体の認識を含む)で構成されています。テンプレートのレイアウトはどちらにも対応しています。マルチボックス、フィールド入力値のValue typeを設定する機能はPremiumモデル専用です。
認識モデル | 基本 | プレミアム | 説明 |
---|---|---|---|
モデル認識率 | 活字体の認識 | 活字体・筆記体の認識 | 主なビジネスへの活用に最適化されている高性能OCR認識モデルを提供 |
適合する文書 | 証明書、固定フォーム様式 | 手書き申請書等様式、金融文書など | |
認識テンプレートのレイアウト | 提供 | 提供 | 認識領域を設定 |
マルチボックス | 未提供 | 提供 | シングルボックスのテンプレートを組み合わせて番号認識領域などを制御 |
チェックボックス | 未提供 | 提供 | チェックボックス型の認識に対応 |
フィールドタイプ | 未提供 | 提供 | 認識値から数字のみを認識するようにタイプを設定 |
サービスプラン:CLOVA OCRサービスは、ドメイン別のサービスプランに応じて課金されます。BasicモデルのFree以外のサービスプランは、OCR APIの呼び出しがなくても維持費用が基本的に発生します。OCR APIの呼び出し回数はサービスプラン別に提供件数が異なり、指定区間を越えると追加費用が発生します。「サービスプラン別料金のご案内」をクリックすると、料金プランの詳細を確認できます。
ドメイン作成時の注意事項
- CLOVA OCRサービスは、ドメイン別のサービスプランに応じて課金されます。
- BasicモデルのFree以外のサービスプランは、OCR APIの呼び出しがなくても維持費用が基本的に発生します。
- OCR APIの呼び出し回数はサービスプラン別に提供件数が異なり、指定区間を越えると追加費用が発生します。サービスプラン別料金のご案内
③ ドメインの作成が完了すると、ドメインリストを確認できます。テキスト抽出にのみ対応しているGeneralドメインには、「Text OCR」ボタン(API Gateway連携)と「Demo」ボタンが動作カラムに表示されます。Templateドメインの場合、テンプレートビルダーを実行できるボタンが表示されます。
④ 選択したドメインの動作カラムの 「テンプレートビルダー」 ボタンをクリックすると、新しい画面でOCRビルダーが実行されます。そこからドメイン情報を確認できます。
⑤ 動作カラムの 「Text OCR」 ボタンをクリックすると、テンプレートを設定せずにテキストのみをすべて抽出できる、General OCR連携設定のポップアップ画面が表示されます。そこからCustom API Gatewayの設定を行うと自動連携が可能になります。
Custom API Gatewayの設定による自動連携
「Text OCR」ボタンをクリックすると、外部アドレスとの連携設定が行える画面が表示されます。
OCR Invoke URLは、外部連携Endpointに入力するOCR APIアドレスを意味します。
既にAPI Gatewayの利用申請が完了している場合、「自動連携(Interlock)」ボタンをクリックすることで簡単に連携できます。
⑥ 動作カラムの 「Demo」 ボタンをクリックすると、API Gatewayを連携しなくてもアップロードした画像のText OCR結果がline単位で提供されるため、視覚的に表現されたデータを確認してからダウンロードすることができます。
ドメインのコピー機能が追加されました。
「ドメインをコピー」ボタンをクリックすると、既存のテンプレートの設定を維持したまま新しいドメインを作成できます。これは、サービスタイプで「Template」を選択した場合に適用される「テンプレートビルダー」専用機能で、Generalタイプはドメインのコピーに対応していません。ドメインをコピーしてから、サービスモデルを変更できます。PremiumからBasicに変更する場合、マルチボックスやフィールド入力値のValue type設定などのPremium専用機能は移行されず、Basicモデルの機能のみサポートされます。
ドメインの検索機能が追加されました。
ドメインリスト画面でドメイン名/ドメインコードの検索機能を提供します。Filterを使うとサポート言語やサービスモデル、サービスプラン別にドメインをまとめて表示することができます。また、Text OCRに対応しているGeneralドメインの場合、Filter > サービスモデル > Premiumを選択するとサービスプランでGeneralを適用できます。
Step 3. テンプレートの作成
OCRビルダーは、画像からテキストを抽出するためのテンプレートを作成してテストできるWebコンソールとして、CLOVA OCRサービスに必要なあらゆる機能を提供しています。
左メニューの 「テンプレートリスト」 をクリックします。
① 「テンプレートを作成」 をクリックすると、テンプレートの基本情報を入力できるテンプレート作成画面が表示されます。
- テンプレート名を記入した後、「確認」 をクリックします。
- テンプレートの基本情報を入力すると、画面下部の代表サンプルの設定、代表サンプル名、判読フィールドの指定領域が有効になります。
② 代表サンプルの設定のために、サンプル画像をアップロードします。
- アップロードする画像の適正サイズや推奨条件:20MB以下、JPG、PNG、PDF、TIFFのファイル形式に対応、A4 150dpi以上、最低解像度10px以上、長辺基準1960px以下
- 代表サンプル画像をアップロードした後、判読フィールドを指定できます。
- それ以降、APIを介してアップロードされる画像は、歪みやノイズの少ない高画質の画像(最低150dpi以上)が推奨されます。
③ 文書のタイトル領域を指定します。
- 代表サンプル画像をアップロードした後、四角形をドラッグして、文書のタイトル領域を指定します。
- 既に指定された領域をクリックすると四角形が有効になり、Xをクリックすると指定した範囲が解除されます。
- 既に指定された領域をクリックすると四角形が有効になり、マウスで点線をドラッグすると領域を再設定できます。Vをクリックすると再設定した領域が保存されます。
④ 代表サンプル名を入力します。
- 入力した代表サンプル名は、文書テンプレートの分類に使われます。
- 代表サンプル名を入力しない限り、「確認」 ボタンは有効になりません。代表サンプル名を入力すると 「確認」 ボタンが有効になり、「確認」 ボタンをクリックすると保存及び類義語登録画面が表示されます。
- 代表サンプル名はそのフィールド内で自由に修正できます。
- 類義語管理では、代表サンプル名と類似度の高い単語を登録し、分類性能を向上させることができます。複数の類義語を入力する場合、コンマ(,)で区切って入力します(例:地方税告知書, 地方税, 地方税告知書)。
- 類義語管理に登録された代表サンプル名は変更できません。類義語の登録及び修正にのみ対応しています。
⑤ 判読フィールドを指定します。
フィールド指定タブの 「+フィールド追加」 ボタンをクリックして判読フィールドを指定できます。マルチボックス及びチェックボックスの指定は、Premiumモデル専用機能であり、Basicモデルでは無効状態です。マルチボックス及びチェックボックスの詳細機能は、以下に続くPremiumモデルのフィールド指定ガイドで詳しく説明します。
フィールド指定
個別のフィールドごとに判読範囲を設定できます。「+フィールド追加」 ボタンをクリックすると、四角形が追加され、新規フィールドを指定できるようになります。四角形のサイズを調整して判読領域を指定します。
既に指定された領域をクリックすると四角形が有効になり、Xをクリックすると指定した範囲が解除されます。
既に指定された領域をクリックすると四角形が有効になり、マウスで点線をドラッグすると領域を再設定できます。Vをクリックすると再設定した領域が保存されます。
フィールドボックスの右の削除アイコンをクリックすると、指定したフィールドを削除できます(フィールド01を削除)。
フィールド領域を指定した後、フィールド名を入力します。
フィールド名はそのフィールド内で自由に修正できます。
フィールド名の右の設定アイコンをクリックすると、Value type、用語登録のフィールドを設定できる画面が表示されます。
Value type:AIIを選択するとテキストと数字が混在した文字列、Numericを選択すると数字のみを認識するように指定できます。Value type機能を使うと、フィールドに入力される値の形式をあらかじめ指定し、特定値のみを抽出できます。
- 用語登録:ドメインに特化した単語及び類義語が含まれた用語辞書を登録できます。辞書を登録するとその辞書に含まれた代表語のみ認識され、類義語が識別される場合は代表語に置換されて表示されます。代表語や類義語以外の単語が認識される場合は、処理に失敗します。
Premiumモデルのフィールド指定
- マルチボックス:銀行口座番号や携帯電話番号のように入力フィールドが分かれている場合、マルチボックスを指定すると個別ボックス内の文字を認識・抽出できます。 マルチボックスの外枠にフィールドを設定すると、抽出を希望するボックス内の文字のみを認識します。(マルチボックスの枠線は認識対象外。フィールドごとに認識できるマルチボックス数は12個)
- チェックボックス:四角形(ㅁ)や円形(O)のチェックボックスにV、X、O、· などの非定型文字が認識される場合はTrueを、認識されない場合はFalseを返します。アンケート用紙、商品申請書類など様々な文書形式でOCRによるチェックマーク認識が可能です。
- チェックボックスを指定する際には、入力フィールドの枠線が見えるようにフィールドを設定する必要があります(チェックボックスの枠線とフィールドを指定するボックスの間に一定の空間を確保)。また、指定された領域に他の文字や図形が含まれてはいけません。チェックボックスのみ認識されるように指定してください。次の4つの条件に該当する場合、正常に認識されないことがあります。チェックボックス領域の外側のチェックマーク、チェックマークが消えたり不鮮明になった場合、チェックマークを修正して同じボックスに重複して記入した場合、「チェックマークとガイド文字」がチェックボックス内に既に記入されており、顧客がチェックできるようになっている場合。
代表サンプル画像の変更
登録した代表サンプルの変更または内容の修正を行う場合は、「代表サンプルの修正」 ボタンをクリックします。
代表サンプルの修正ポップアップ画面で 「確認」 ボタンをクリックすると、代表サンプル画像を変更できるページに遷移します。
テンプレートの作成時に登録したテンプレート名、使用モデルなどテンプレートの基本情報が自動的に入力されます。
代表サンプル画像、代表サンプル名、判読フィールドの指定など、代表サンプルの設定に関する情報は空欄で表示されます。
⑥ 「保存」 ボタンをクリックしてテンプレート作成を完了してから、左メニューの 「テンプレートリスト」 をクリックすると、作成したテンプレートを確認できます。
「代表サンプルの修正」 をクリックすると、画像と内容を修正できるページに遷移します。
テンプレートリストでテンプレートIDの左のチェックボックスを選択し、「削除」 ボタンが有効になったら、そのボタンをクリックしてください。作成したテンプレートが削除されたことを確認できます。
独自の検証サーバを保有している場合は、それと連携して検証機能を使うことで、テンプレート別に検証が行えます。
⑦ 左メニューの 「サンプルリスト」 をクリックします。
サンプル画像を見る:サンプルリストで個別のサンプル番号をクリックすると、アップロードした代表サンプル画像を確認できます。
Step 4. テスト・分析
テキストを抽出する画像ファイルをアップロードした後、判読テストやダウンロードを行える機能を提供します。 統合指標ページでサービスプランの日別API呼び出し回数、テンプレート別の外部検証結果を確認できます。
左メニューの 「テスト」 をクリックした後、「ベータ・テンプレートの判読」 に関するテスト条件を選択します。
- ベータテスト:サービスリリースと同じ環境でテンプレートの自動分類や判読領域に関するテストが行えます。ベータのリリース後にベータテストの実施をはじめ、サービスをリリースすることができます。
- テンプレート判読テスト:判読領域が設定されたテンプレート及びモデルに関するテスト結果を提供します。
「ファイル検索」 ボタンをクリックすると、画像ファイルをアップロードできるポップアップが表示されます。テストする画像に合ったテンプレートの選択 → 画像のアップロード → 「テスト」ボタンをクリックすると、判読結果を確認できます。
ベータとテンプレート判読テストの回数を合算して、月300回まで無料テストを提供します。
テスト結果はcsvとjson形式でダウンロードでき、テスト結果の右側に判読結果がテーブルに表示されます。
左メニューの 「統合指標」 をクリックします。
選択できる期間は最大90日までです。
選択したテンプレート別の指標を確認でき、すべてのテンプレートを選択するとドメイン全体に関する指標が表示されます。
統合指標ダウンロード:選択した指標に関するエクセルファイルをダウンロードできます。
APIの呼び出し回数:使用中のサービスプランが設定された期間中に呼び出されたAPI件数です。
検証結果:テンプレート別の外部検証結果及びそのドメインにおける検証回数を確認できます。検証結果グラフにマウスカーソルを合わせると、VALID/UNCHECKED/ERROR/INVALIDの回数がそれぞれ表示されます。
テンプレート認識の失敗回数:テンプレートがマッチングされず、認識結果がない場合、「テンプレート認識失敗」として処理され、設定した期間中の件数を表示します。
Step 5. コンポーネント
用語辞書
- 特定フィールドにその辞書の単語のみを認識するように指定できます。また、登録した類義語が認識された場合、代表語に置換された結果を表示します。
- エクセルファイルで用語辞書をバルクアップロード・ダウンロードできます。
- 辞書名を検索するとその用語辞書の検索結果が表示され、「更新」ボタンをクリックすると用語辞書の最初のページが表示されます。
「用語辞書の作成」 ボタンをクリックすると、「用語辞書の作成及び修正」ポップアップ画面が表示されます。
辞書名:重複しない固有の辞書名を入力します。
代表語:辞書を構成する代表語を入力します。 類義語:入力した代表語の同義語または類義語を入力します。複数の類義語を入力する場合、コンマ(,)で区切ります(例:地方税告知書, 地方税, 地方税告知書)。
Step 6. 設定
OCRビルダーはドメイン情報、外部連携、権限管理など手軽な設定機能を提供します。
外部連携
最終的に検出・認識されたOCRの結果値を連携されたアドレスに送信するには、外部プラットフォームとの連携設定が必要です。 外部に安全にサービスを提供する必要があるため、Gateway商品と連携して提供されます。
- Custom API Gatewayの設定による自動連携
- 「設定」 ボタンをクリックすると、外部アドレスとの連携設定が行える画面が表示されます。
- OCR Invoke URLは、外部連携Endpointに入力するOCR APIアドレスを意味します。
- 既にAPI Gatewayの利用申請が完了している場合、「自動連携」 ボタンをクリックすることで簡単に連携できます。
検証連携
- データ送信
- OCRの結果を送信するアドレスを直接設定・管理できます。
- 「作成」 ボタンをクリックして、${結果送信名}という形で名前を入力します。
- URLフィールドにhttps://で始まるURLを入力します。
権限管理
新しい管理者を追加して権限を付与します。
権限設定のためのURL作成:ボタンをクリックするとInvite URLが作成され、URLを介して権限を付与できます。
「URLコピー」ボタンをクリックすると、Invite URLがコピーされたという警告が表示されます。
「削除」 ボタンをクリックすると、Invite URLが削除されたという警告が表示されます。
Step 7. リリース管理
ベータのリリースは、モデルに反映できる最終保存機能で、テンプレートに適用したサンプルや判読領域、用語辞書などを学習できます。ベータのリリース後にベータテストの実施をはじめ、サービスをリリースすることができます。
左メニューの 「リリース管理」 をクリックすると、テンプレートリストを確認できます。
テンプレートの選択:ドロップダウンボックスでテンプレートを選択すると、そのテンプレートのリリース履歴が表示されます。
現在のリリース状態:そのテンプレートのリリース状態に関する最新情報を表示します。
テンプレートリストからリリースするテンプレートを選択すると、「ベータリリース」 ボタンが有効になります。
「ベータリリース」 ボタンをクリックすると、ベータリリース済みのテンプレートのリストを確認できます。
「確認」 ボタンをクリックしてベータのリリースを行います。リリースが完了すると、ベータテストが実施できるようになります。判読結果テスト後にテストメニューで修正した情報は、新しいベータのリリースにより適用されます。
ベータテストが完了した最新テンプレート(ベータリリース済み)のサービスリリースを行います。
- OCRビルダーの最上部にある「サービスリリース」ボタンをクリックします。
- サービスリリース画面では、リリースするテンプレートリストやドメイン名、利用中のサービスプランを確認できます。
- 「確認」 ボタンをクリックしてサービスリリースを行います。
- テンプレート別のリリース履歴は、リリース管理の右側にあるドロップダウンボックスで個別テンプレートを選択すると表示されます。
- 個別テンプレートを選択すると、リリース時間などリリース履歴に関する詳細情報が表示されます。また、現在のリリース状態では、Beta、Service、ベータリリースの失敗に関する履歴などを確認できます。
サービス利用時の注意事項
Template OCRの呼び出し1回当たりの基準は、ビルダーで設定したテンプレートの認識領域の数(最大50個)です。これを超えた場合は追加課金が発生します。(例:Templateのボックス領域の数が130個である場合、API呼び出し回数を3回で計算して課金)
CLOVA OCRサービスは、高い認識性能とともに迅速に処理できるサービスを提供できるよう努めています。バッチ形式で短時間に大量のデータを認識したり、決められた時間内に処理できる機能の開発に取り組んでいます。現在、サービスアカウントごとに推奨される呼び出し性能は最大1tpsです。(さらに高い呼び出し性能をご希望の場合は、サポートセンターまでお問い合わせください。)
- OCRの認識をリクエストする際に、45度以上回転した文書の場合は認識率が低下することがあります。
関連情報に移動する
CLOVA OCRの使用方法及びAPIの連携に関しては、以下の使用ガイドを参照してください。
- CLOVA OCRスタートガイド