【KnowledgeLake】 KnowledgeLake Captureスキャナで取り込んだ紙データに自動的に タグ(インデッ クス)をつけて分類保管する

みなさま、こんにちは。インフォシェアの小林です。
今回は、前回の記事で少し触れた、スキャナとKnowledgeLake Capture(以下、Capture)を使用して、スキャナで取り込んだドキュメントに自動的にタグ(インデックス)を付けてSharePointに分類保管する方法をご紹介します。

まずは下図をご覧下さい。

image

上図はCaptureのイメージ画面です。Captureでは主に下記のことがおこなえます。

・スキャンした紙文書(ドキュメント)の自動仕分けおよび保存
バーコードをもとにドキュメントを自動仕分けすることができます。バーコードとコンテンツタイプを紐づけることで、ユーザーは保存先を意識せずにSharePointのライブラリにドキュメントを保存することができます。
また、ドキュメントが複数ページある場合も、一つのドキュメントとしてグルーピングされます。

・自動タグ付け
OCRでの自動読み取りと、タグ付けされたキーとなる情報を基にSharePointから情報を取得することで自動的にタグ付けを行い、ユーザーの入力の手間が省力化できます。

以下、順番に説明致します。

スキャンした紙文書(ドキュメント)の自動仕分け

Captureは、株式会社PFUのスキャナ「fiシリーズ」経由してドキュメントを取り込むクライアントアプリケーションです。専用スキャナ以外にも、複合機やスキャナで電子化されたファイルをインポートすることができます。

取り込みたいドキュメントによってカラー設定やSharePointライブラリの保存先、タグ付けの方法が異なるかと思いますが、これらの設定をプロファイルとして複数保存することができます。

作成されたプロファイルは下図のように一覧で表示され、使用者ははじめにどのプロファイルを使用するか選択できます。

image

一口に複合機や別のスキャナでスキャンと言っても、例えばページが複数ある場合やドキュメントのセットがある場合に、どこからどこまでが一つの区切りであるのかを設定することは一見難しいと思うかもしれません。
しかしCaptureでは、そうした区切りを設定し、紙文書の取り込みを自動化することができます。区切りには、例えば2次元バーコードを使用しドキュメントのグルーピングを行うことができます。下図をご覧いただくと、トップページに2次元バーコードがあるドキュメントがあれば、こちらを読み込んだ時点で、新しいPDFであることをCaptureが認識してくれます。

image

また、プロファイルでバーコードとコンテンツタイプを紐づけることにより、ユーザーは保存先を意識せずにSharePointの適切なライブラリにドキュメントを保存することができます。

他にも、Captureは複数人が別の端末から同時に作業を行うことを想定しており、ドキュメントのタイトル等が被らないようユニークなファイル名を生成したり、登録先にフォルダを作成してそこに保存を行ったりすることができます。


自動タグ付け

スキャンされたドキュメントに自動でタグ付けを行うことで、ユーザーのタグ付けの手間を省力化することができます。自動タグ付けには、主に2つの方法があります。

・OCRでの自動読み取り
・SharePointの情報を取得

OCRとは、手書き文字や印字された文字を読み取り、データを入力することを言います。下図のように、タグ付けを行いたい位置を選択すると、OCRで自動的にタグが入力されます。

image

現在、CaptureのOCR機能は、英数字には対応しているのですが日本語には未対応とのことです。

ですが!もう間もなく日本語OCRもリリースされるようです。今回試してみたところ、英数字はかなり精度が良かったので、日本語にも期待が高まります。

また、予めSharePointでリストを作成しておくことで、タグ付けされたキーとなる列の情報を基に、SharePointから別の列の情報を取得することができます。下図では、注文番号をもとにSharePointのリストから会社名を取得しています。

image

SharePointから情報を取得するには、Capture側での設定だけでなく、SharePoint側での設定が必要となります。
※SharePointにKnowledgelake Imagingがインストールされている必要があります。

コンテンツタイプの設定画面を開くと、設定に“KnowledgeLakeコンテンツタイプの動作の設定”があります。ここで、キーとなる列(キーフィールド)と取得したい列(母集団のフィールド)を設定します。

image

とは言っても、ドキュメント毎にOCRで取得したい情報を選択するのは面倒ですよね。そのような場合には、ドキュメントのコンテンツタイプ等の種別毎にOCRで読み取る位置を設定したOCRのテンプレートを作成し、テンプレートを選択することでさくさく作業を進められます。今回は試していないのですが、例えば帳票の管理番号が03だったらこことここのフィールドを取得するといったように、認識した文字に従い仕分けをすることもできるみたいです。

image

 

以上です。次回はKnowledgeLake Unifyについてご紹介いたします。