スローなPCライフ

がんばらないでPCの世界を楽しむつもりです。

全体表示

[ リスト ]

ubuntuでOCR

 OCRのソフトウェアは複合機(プリンタとスキャナー)やスキャナーにおまけで付属してくるものがありますが、それらはWindows用かMac用でlinuxでは使えません。
 近年は各プリンタメーカ(Canon、Epson、Brother・・・)がドライバーを提供してくれるようになっただけでも感謝していますが。
 それでubuntuでOCRは諦めていました。
 手持ちの単行本を電子書籍化(Epub3)するために手打ち入力してきましたが、2ヶ月かかりました。
 電子書籍化が終わったところで、GoogleドキュメントのサービスでOCR処理ができるということを知りました。2ヶ月前だったら良かったのに。
 今回はGoogleドキュメントを使ってOCR処理でテキストを取り出す方法を書きます。

必要なもの
 Googleのアカウント Gmailを使っていれば持っているはず。
 OCR処理したい画像ファイル JPG、pngは確認しました。
 できれば画像編集ソフト 画像を縦又は横に回転させられるもの。

操作
1,Googleにログインして、ドライブを開く
イメージ 1


2,画像ファイルをドライブにドラッグ&ドロップする。
イメージ 2


3,ドライブ上に取り込まれた画像ファイルを右クリックして「アプリで開く」→「Googleドキュメント」を選ぶ
イメージ 3


 これで新たにできたドキュメントの一ページ目に先程の画像が表示され、次ページにocr処理されたテキストが表示されます。
 操作は以上。

 画像は文字が横向き、縦向きどちらになっていても読み取れるようです。
 画像はスキャナーで取り込んだものだけでなく、写真でも大丈夫です。
 大切な書籍を傷めたくなかったので一ページずつ写真に撮って手入力していましたが、ページのとじ側は湾曲して認識が難しいだろうと思いましたが、意外ときちんと認識していました。かなり良いと思います。
 またコンパクトデジカメの広角レンズのために歪みがありますが、これも大丈夫です。ただ、その影響をできるだけなくす意味で、文字方向が正しい方向に画像を回転させておいた方が良いと思います。
以下に写真で取り込んだ例を載せます。
イメージ 4

OCRテキストを見ると
 画像右下の横文字は正しくはDaphne de Maurierだが、このご認識はやむを得ないと思う。
 できたテキストは何らかの判断で段落がまとめられているようで、画像のように行末で改行していない。これも凄いが画像との照合には困る。
 ルビのあとに28,29,30とわからない数字がある。
 一見完璧に見えるが、よくよく見るとご認識がある。それでもいままで見てきたOCRソフトに比べると遥かに精度は高い。
 ところどころ文字の間に空白が埋め込まれている。(画像上では行末にあたる箇所)
 画像の左端に写っているかなりひどい次ページも、認識しているのが凄い。(さすがにご認識ではあるが)

 結論、やはり確認作業は必要で、余分な空白除去の処理が必要。
以下はできたOCRテキスト−−−−−−−−−−−−−−−
Dahhne du. Alancer.」
「そのとおりです、奥様。こちらの棟のお部屋をお使いになったことは一度もございません」 「あら、そう、知らなかったわ」とわたしは言って、さりげなくドレッサーの前に座って、髪を 焼きはじめた。
荷物はすでに解かれていて、ヘアブラシと櫛がトレイにでていた。マキシムがブラシと櫛のセ ットを贈ってくれたこと、それがこうしてドレッサーに置かれるかたちでダンヴァーズ夫人の目 に入ってよかったと思った。新しく高価な品で、恥じることはないからだ。 「アリスがお荷物を片づけさせていただきました。奥様のメードが到着するまでアリスがお世話 をいたします」夫人は言った。 「わたしはまた笑顔を作って、ブラシを置いた。 「メードはいないのよ」わたしはぎこちなく言った。「アリスは家政婦でしょうけれど、わたし のこともアリスにお任せしたいわ」
ハウスメード
28
29
30
「夫人は、最初に会った際に、わたしが手袋を落とすというへまをしたときと同じ表情になった。 「お言葉ではございますが、ずっとというわけにはまいりません。奥様のようなお立場では、ふ つうは専属のメードがいらっしゃるものです」
わたしは赤くなって、またブラシに手を伸ばした。その言葉にはすでにおなじみの棘があった。 「どうしてもということなら、手配をしていただけるかしら。仕事を覚えたいという若い娘さん か誰かを」わたしは相手の目を見ないで、言った。 「奥様がお望みならばそういたします。決定権は奥様にございます」 とダンヴァーズ夫人は言い、あとに沈黙がつづいた。早くいなくなってくれればいいのに。黒 いドレスの前で手を組み、じっとわたしを見つめて、どうしていつまでもそこに立っているのだ
もしマンダレーにいらっしゃるんでしょうなわ
ように、言った。 ヘンリスほどではごさいません」と夫人。 それなしでもなんと生気のない声、握手したときの手さながらになんと冷えびえしたいない。
か る
ろう。
ヘンリンは、先代のご当主が?
−−−−−−−−−−−−−−−ここまでOCRテキスト

閉じる コメント(0)

コメント投稿

顔アイコン

顔アイコン・表示画像の選択

名前パスワードブログ
絵文字
×
  • オリジナル
  • SoftBank1
  • SoftBank2
  • SoftBank3
  • SoftBank4
  • docomo1
  • docomo2
  • au1
  • au2
  • au3
  • au4
投稿

開く トラックバック(0)


.


プライバシー -  利用規約 -  メディアステートメント -  ガイドライン -  順守事項 -  ご意見・ご要望 -  ヘルプ・お問い合わせ

Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.

みんなの更新記事