「撮メモ Pro 2」OCR機能レビュー

未改修

なんでも画面キャプチャ & OCR [ 撮メモ Pro 2 ] は、パソコンの画面上に映るあらゆる画像をキャプチャし、自由に加工して、好きな形式で書き出すことができるソフトです。

このソフトの中でキャプチャ機能と並ぶ注目機能は、OCRとよばれる機能です。
OCRというのは、例えば写真に映り込んでいる看板の文字などを読み取ることができるというものです。
通常、写真に写っている文字はパソコンの中では文字として認識されませんよね。
でも、このOCR機能は画像を解析して、そこに映っている文字を認識してテキスト表示してくれます。

OCR機能自体は随分昔から存在している機能で、実は郵便の仕訳にもOCRが使われているのです。
特に最近ではペーパーレス化の名の下に、いろいろな紙媒体がデータファイル化される流れで、OCR機能はデジタル界の裏方スター選手だったりします。

そんな注目度急上昇中のOCR機能を併せ持ったキャプチャソフト、それが なんでも画面キャプチャ & OCR [ 撮メモ Pro 2 ] です。
今回の記事では、この「撮メモ Pro 2」に搭載されているOCR機能に注目し、その性能と活用方法を徹底検証してみたいと思います。

なお、「撮メモ Pro 2」に搭載されているOCR機能は、Googleによる「Cloud Vision API」という仕組みが使われています。
GoogleドライブにはこのOCR機能が使われていて、Googleドライブに保存した画像ファイルは自動的に解析されています。
ユーザが検索すると、即座にヒットしてその画像を表示してくれます。
そのOCR技術のコア部分が、この「Cloud Vision API」です。
「撮メモ Pro 2」では、このOCR技術を使用しています。

 

看板(パネル)

まず使用するのは、羽生PAにある「鬼平江戸処」に掛かっていたパネルです。

「ファイル」ー「取り込む」ー「ディスクから」を選択します。

取り込み完了です。

OCR機能は、↑のボタンを押すだけで開始されます。
この規模で20秒〜30秒くらいです。画面上に変化はないので、じっと待ちましょう。

解析が完了すると、このように表示されます。
合っている部分と、全然ダメな部分があるようです。

本所 蕎麦処
さなだ

9
監修神田まつや
[さなだや]は、鬼平が剣友の
岸井左馬之助を見舞った帰
途、大川(隅田川)べりの橋向
こうにたまたま見つけたそば
屋です後で左馬之助に聞く
と、『あそこは源兵衛橋の蚤
そばといってね。土地の者はみ
んな知っている。めっぽううま
い。そうだったろう、平さん』
と言われた人気の店でした。
当時、そば屋は江戸市中に数
千軒あったと言われ、鬼平犯
科帳にもさまざまなそば屋
が登場します。ちなみに、こ
きしいさまのすけ
より
るそば
〔さなだや〕は
老夫婦がやってい
る店で、西は大川。
束は道をへだてて
は, mitteかき婸げをたか
水戸家の下屋敷(後略)
せた天婦羅そば。天婦羅そば
は、当時登場して大流行とな
り、どこのそば屋もちからを
入れている、と解説されてい
ます。
鬼平犯科帳
第十二巻
「いろおとこ」より
出典:文春文庫

うーん。。
なかなか厳しい感じですね。
Googleドライブのように検索で使う程度なら問題はないのですが、人間が見るために書き写すという点で見ると、ちょっと不十分です。

よく見てみると、上段の「さなだや」の説明文と、下段にある「文春文庫」原作の著述が混ざって解析されている気が……
……ひょっとして、段組苦手なんじゃないのかな?

そこで今度は、写真を範囲指定して、その部分だけOCRにかけてみることにしました。

 

[st-myblock id=”6687″]

 

右カラムの画像の大きさを調整しよう。

右側に表示されている写真が大きいですね。
そんなときは上の写真のようにサイズを変更させることができます。
もちろん読み取りには影響されません。

良い感じに全景が表示されるようになりました。

 

分けてOCRにかけてみる

メニューアイコンの範囲指定ボタンを押してから、目的の場所を囲みます。
今回の例だと、こんな感じ。
早速試してみましょう。

本所 蕎麦処
さなだや
監修神田まつや
〔さなだや〕は、鬼平が剣友の
岸井左馬之助を見舞った帰
途、大川(隅田川)べりの橋向
こうにたまたま見つけたそば
屋です後で左馬之助に聞く
と、『あそこは源兵衛橋の蚤
そばといってね。土地の者はみ
んな知っている。めっぽううま
い。そうだったろう、平さん』
と言われた人気の店でした。
当時、そば屋は江戸市中に数
千軒あったと言われ、鬼平犯
科帳にもさまざまなそば屋
が登場します。ちなみに、こ
の日鬼平の舌をうならせたそ
ばは、貝柱のかき揚げを浮か
せた天婦羅そば。天婦羅そば
は、当時登場して大流行とな
り、どこのそば屋もちからを
入れている、と解説されてい
ます。
きしいさまのすけ

おおっ、かなり正確です。
ルビを打った「きしいさまのすけ」が文末に表示されていたり、
「大川(隅田川)べりの橋向こうにたまたま見つけたそば屋です」の直後、句読点「。」が抜けているほかは、特に間違いなく読み取れているのではないでしょうか。

今度は下段です。

〔さなだや〕は
老夫婦がやってい
る店で、西は大川
東は道をへだてて
水戸家の下屋敷(後略)
鬼平犯科帳
第十二巻
「いろおとこ」より
出典:文春文庫

おお、やっぱりキレイに読み取れています。
「西は大川」の後ろの句読点「。」がやはり抜けています。こういうのに弱いんでしょうか。

 

複雑な段組

じゃあ、今度は段組のハードなやつを試してみましょう。

パソコンソフトの動作環境です。
まず、この状態のままOCRにかけてみました。

ディスプレイ
解像度1024×768以上必須(1280×800以上推奨)
ハードディスク
450MB以上(7 タ領域は別途必要)ト ルする場合42GB以上の空き容量が必要です
プリンター
動作OSに対応したプリンター ※宅配便ツール·統一伝票·連続用紙を印刷する場台は
データベース
Microsoft SQL Server 2005 Express Edition/Micn
Microsoft SQL Server 2008 R FE press it on Microsoft SQL Server 2016 Erel dt
トラクターフィーダーを装備したドットプリンタ-me廉です.
動作環境
osoft SQL Server 2008 Expess Edition
※Microsoft SQL Server 2012 Expressをインス
tos
Microsoft Windows10 / 8.1 / 7 / Vista-
/ Microsoft SQL Server 2014 Express Edition/Microsoft SQL Server 2016 Exess Ei
er 2008 R2/Microsoft SQ. Sever
icrosoft SQL Server 2005/ Microsoft SQL
動作に必要なソフトウェア
Windows Installer 4.5以降、Microsoft
Framework 4.0以降が必要ですMicrosoft .NE
Microsoft SQLServer 2012
※Microsoft SQL Server 2012 Express Editionを本製品のセットアップ時に
Microsoft SQL Server 2014/Microsoft SQL Server 2016
.NET Framework 3.5 SP1 Microsoft.NET
トール済
ストルするこげ怯封。
フラクガー
Microsoft Internet Explorer 8.0以降
T Framework 4.0がイソス
ディスクドライブ
CD ROMドライブ必須
ルされ、64bitOSでは
みで無い場合は本製品のイ ンストール時に同時にイ凎ト
メモリ
[Wmdows 10/8.1] 2GB以上(64bit)/1GB以上(32bit)
[Windows 7/Vista] 512MB以上(推奨1GB以上)
2.0GB以上/32bitOSでは850MB以上の空き容量が別途必要になります。
※Windows Installer 4.5 Microsoft.NET Framework 3.5 SP1は本製品のインス
トール時に同時にインストールされませんので、インストールされていないパソコンでは
事前にインストールが必要です。インストール時に、再起動が必要になる場合があります。
※詳細はカタログ、ホームページをご覧ください


これは……実用的ではないですね。
やっぱり段組ごとに分解するしかないようです。

動作環境の読み取りも一通りやってみたのですが、今回の例のように、段組が結構多い、狭いスペースに詰め込んだ感じのものは苦手なようです。
10回分くらいに切り分けてスキャンをかけたところ、なんとかちゃんと読み取れたのですが、手直しする箇所も多く、さすがにワンタッチとは行かないようでした。
ただし、全文キーボード手打ちで打っていく……というのと比べたら、ベテランの方以外はまだまだ楽チンできると思います。

それと、後で知ったのですが、読み取りが怪しい場合は、白黒画像に変更してからOCRにかけると結果が良くなると言われています。
よく見てみると、「撮メモ Pro 2」にも「背景をモノクロ化」という機能がついていました。
補足的ですが、お試しいただくと良いかも知れません。

 

筆文字

さて、続いてはこちら。

書道ですね。
昔の人が書いたもので、達筆すぎて分かりません。

さー、解読できるかな?

あー、、ダメですね。

私たちの感覚だと「夢曽」と読める文字でも、OCRでは読めませんでした。

 

[st-myblock id=”6687″]

 

古文書

続いては、「唐大和上東征伝」奈良の唐招提寺建立に寄与した、鑑真和上が日本に来日する経緯の書かれたありがたいご本です。
「群書類従」所収……江戸時代に刊行されたものです。

人士 为个云 臣
令去 鼾乳梟真1芊
和類上從阈 和ǐ柔,学本1曾額
迫缪靜津
尼法閎弟,向下宝來 %, 諾,
晏蕁僧州四重二藆和 1茂
王弓奏禮知 中麻
倍使
上弟、 五、朝鈊
十密


寺信和道向子漁 青
士日·좋な朝尤
三閏思、白沙觀十
優法 ,法訖ケ悲戍 具
塞等寺泉舩最走從舫
仙t義超3 請白,興江有 貌土ㄧˊ莓將特教和鯈旅
鴣人衔寺卅皓上出相幹, 旬亦作四通1聿故上朝卿
云大蒙願养上尊将を言
和 具和桃孚名 .寺監
使特進藤原,,清河副使,,光禄大夫光旅
臣真備衛尉沖安倍朝臣朝衡等來延光寺,白扣上(以下、後略)

うーん、こちらも厳しいですね。
この本は楷書で書かれているので大丈夫と思ったのですが、楷書でも厳しいようです。
Google OCRはAI搭載ですが、あくまで現代文に対するAIですから、古文はダメですね。

1行だけでも、やっぱりダメでした。
AIを古文に最適化させたら違う結果になったかも知れませんね。

 

外国語(中国語)

最後です。
「撮メモ Pro 2」では、日本語だけではなく、各国語に対応しているという説明でした。
果たして日本語以外も本当にいけるのでしょうか。

中国に行ったとき、撮影した中国語の標語。
中国って、こんな標語があちこちに張り出されているんですよね。
「社会主義核心価値観」

社会主义核 价值观
富强 民主 文明 和谐
自由 平等 公正 法治
爱国 敬业 诚信 友善

惜しい!

一文字だけ抜けています。
タイトルの「社会主義核心価値観」の「心」が抜けています。
うーん、象徴的すぎる結果に……

 

[st-myblock id=”6687″]

 

分かったこと。

まず、段組にはトコトン弱い。段組は分解して、ひとつひとつ読み込ませる必要がありました。
また、コントラストのはっきりした画像であることが重要みたいです。
やはり写真のピントがブレていたり、文字と同系色の背景だったりしたものは、キレイに読まれない可能性があります。
また、ナナメも弱い感じがしました。動作環境の写真、微妙にナナメだったのですが、感覚として誤認識の割合が多かった印象です。
そして古文や漢文など、現代では使われていない文章は弱いようです。
このOCRはGoogleによる知の集積、人工知能(AI)が用いられているのですが、どこの言語にも属していないこの種類のものは、実は未開拓の分野なのかも知れませんね。

さ、終わり……と、思っていたら、メーカーのメディアナビさんからメールが。

「撮メモ Pro 2」のOCRで使っている、Googleの「Cloud Vision API」の取得方法についての説明を書いてみませんか?
「撮メモ Pro 2」のOCR機能は、体験版の場合は1日3回、製品版でも1日50回までの制限をかけさせていただいております。
その理由は、このOCRの実現のために利用しているAPIが従量課金制のシステムである為です。
でも実は、この「Cloud Vision API」というのは、個人でも取得できるものでして、
お客さまの側で「サービスアカウント」というjsonファイルを取得し、「撮メモ Pro 2」に登録をすることで利用回数制限を大幅に増加させることができ、事実上の無制限仕様にすることができるんですよね……

なにいいいい!?
そういうことは早く教えてよ……

というわけで、急遽「Cloud Vision API」のアカウントを取得して、jsonファイルを入手するミッションが課されました。
緊迫の次回へ続く!

タイトルとURLをコピーしました