電子帳簿保存法時代のレシートOCR：自前で頑張るか、クラウドに任せるか？

こんにちは！
九保すこひです（フリーランスのITコンサルタント、エンジニア）

【X】九保すこひ＠フリーランスエンジニア

さてさて、生成AIがローカル環境でも（実用的に）使えることを知ってから、ずっと気になっていたものがありました。

それは・・・・・・

AIをつかったOCRの実力

です。

2026/01/07現在のところ、ChatGPTをはじめとする生成AIは、ほぼ完璧に画像からテキストを抽出することができるわけですが、これがローカルAIならどうだろうと考えたわけですね。

そして、注目していたモデルが「Qwen3-VL」です。

というのも、パラメータが2B〜235B（！）まであるので、各環境にあったものを選択できるんですね。

そして、その時1つアイデアが浮かびました。

既存OCRと比べて精度はどうなんだろう…🤔

と。そこで今回は以下4つのローカルOCRを実際にやって比較してみました。

Qwen3-VL
tesseract
easyOCR
rapidOCR

つまり、今回は技術紹介ではなく、経営者サイドのためにつくった、

意思決定の調査レポート

的な内容となっています。

もし以下のような方は、ぜひ最後まで読んでくださいね。

「人的コストを下げたいけど、ホントにAI代替はできるのか？」
「AI代替した際のコストはどのくらい？」
「AI化を進めて、ROIを改善したい」
「クラウドAIではなく、ローカルで完結する安心感がほしい」
「会計処理の省力化を進めたいが、実例が知りたい」
「人手不足が進んでいるので、AIに業務を任せたい」
「業務効率よりも、セキュリティを優先したい場面が多い」
「今のオープンソースがどれだけの実力か知りたい」
「経営者視点で“どこまでAIに任せていいか”の線引きを見極めたい」

「姪っ子が歌ってた、ばーいのばいの♫
が頭から離れない😱」

1 前提として
2 各OCRの「現実的な限界」
3 実データを読ませて見えてきた“ローカルOCRの限界”
4 クラウドOCRの結果
5 クラウドOCRとの比較
6 意思決定パターン
7 企業様へのご提案
8 おわりに

前提として

今回の文字認識ツール（以降、OCRと呼びます）レポートの前提をまとめました。

1. 検証環境

ローカル完結のOCRは以下の環境で実行しています。

OS	Ubuntu 22.04
GPU	GeForce RTX 3050、4GB
CPU	12th Gen Intel® Core™ i7-12700H × 20
メモリ	16 GB

※実用的なミドルクラスのパソコンだとお考えください。

2. 要求する精度について

電子帳簿保存法は会計処理なので、一切の間違いは認められません。
なので、必要とされる以下3つのデータ取得は「100%正しい情報」をゴールとします。

日付
金額
会社名

参考：電子帳簿保存法に沿ったファイル名は3つの項目を入れるだけ

3. 記事の目的

以下4つのOCRの精度と処理速度に着目し、最終的に「ローカルAI、もしくはクラウドサービスどちらを使うべきか？」という内容をお届けします！

Qwen3-VL:2B：ローカルAIを使ったOCR
tesseract 5.5.1：オープンソース界で最も歴史がある
easyOCR 1.7.2：80以上の言語対応OCR
rapidOCR 1.4.4：軽量で高速なOCR

各OCRの「現実的な限界」

以下の画像で各OCRを試してみました。

なお、生成AIを使わない通常OCRの場合、出力された内容を生成AIモデル「gemma3n:e4b」でデータ加工するものとします。

通常OCRのデータ加工に使用するプロンプトはこちら。

あなたはレシートの文字列を統合・補正して構造化するアシスタントです。
以下のOCRエンジンの結果から、電子帳簿保存法に必要な情報をJSONで出力してください。
なお、JSON以外のテキストは絶対に出力しないでください。

【OCRエンジンの結果】
（ここにOCR出力を入れる）

【JSONフォーマット】
{
    "company_name": "会社名",
    "issue_date": "YYYYMMDD",
    "total_amount": "合計金額",
}

では、各OCRの実行結果を見ていきましょう！

1. Qwen3-VL:2B（生成AIのOCR）

ローカルでChatGPTのようなチャットページがつかえるオープンソース「Open WebUI」を使って、以下プロンプトを実行。

添付したレシート画像からテキストをすべて抽出し、以下のJSONフォーマットで出力してください。

{
    "company_name": "会社名",
    "issue_date": "YYYYMMDD",
    "total_amount": "合計金額",
}

なお、JSON以外のテキストは絶対に出力しないでください。

【良かった点】

以下のように、精度は他のOCRと比べると断然高かったです。

また、ローカルAIを通しているので、そのまま必要なデータにして返してくれるのもうれしいところです😊

【悪かった点】

精度が高いとはいえ、100%の精度にするには画像を

サイズ変更（500pxぐらいまで小さくする）
くっきりはっきりにする
必要部分のみを切り取る

など前処理が必要。

となると、人的コストをかけないといけないので「作業のサポートをする」ぐらいの使いみちならつかえるかなという印象。

また、GPU 4GB環境で1枚の画像処理に2〜3分かかるのも重要な点。相当スペックが高いパソコンでないと実用的ではないです。

2. tesseract 5.5.1

領収 書

Rec ei pt      NN 3
領有日 25 12 13
を人き \1H.HUH

写.******************
チャージ

この貧収書は大切に保存じでください:
ご利用ありがとうございまま

下日本旅容鉄道株式会社
******

券A01 発行                       伝票番号 .07279

生成AIで整形した結果はこちら。

{
   "company_name": "日本旅容鉄道株式会社",
   "issue_date": "20131225",
   "total_amount": "不明"
}

【良かった点】

正直、高速に処理された点のみがメリットでした…。

【悪かった点】

なんといっても精度が低すぎます。

会社名：西日本旅容鉄道株式会社→下日本旅容鉄道株式会社となっている
金額：不明となり数字でもない

正直、tesseractを業務にとりいれると、人的コストが改善されるどころか悪くなるのでは、という印象ですね😩

英数字なら精度は高いので、そっちならまだ…

3. easyOCR 1.7.2

領 収言書
尺e
領収年月日
2025.12.13
金g
Y1DDoD
ナード秀号*****************
取引内容
ナヤー
この領収書は大切に保存してくだきい
ご利用ありがとうごぎいます
西日本旅客鉄道株式会た
*******
券A01 発行
伝票番号
07279

生成AIで整形した結果はこちら。

{
  "compa_name": "西日本旅客鉄道株式会社",
  "issue_date": "20251213",
  "total_amount": "不明"
}

【良かった点】

tesseractよりは精度が高い印象でした。

【悪かった点】

それでも、正直実用には耐えないですね…。
合計金額がまったく取得できてません。

rapidOCR 1.4.4

领收書
樣
领收年月日
20251213
金
￥10.000
龙5番号*****************
取引内容升
领收書大切保存
利用以竞
西日本旅客铁道株式会社
********
券A01凳行
云票番号07279

AIで整形した結果。

{
  "compa_name": "西日本旅客鉄道株式会社",
  "issue_date": "20251213",
  "total_amount": "10000"
}

【良かった点】

結果として、これは完璧でした！

【悪かった点】

ただし、見ていただければわかるとおり、ところどころ漢字がおかしい（中国のテクノロジーなので、この辺はしかたないかも🤔）です。

AIによる修正がなかったら、きちんとしたデータは取得できそうにないですね。

ただし、名前のとおりめちゃくちゃ早かったです。
中国企業の技術力の高さを再認識させられました。

実データを読ませて見えてきた“ローカルOCRの限界”

今回4つのOCRを試してみたわけですが、結論から言うと、現状のとおり「人の手で作業する」もしくは「ChatGPTなどのクラウドを利用する」方がベターと考えてます。

というのも、現状だと以下3つの問題点が無視できないからです。

1. 精度

特に通常OCRだと精度が低いと言わざるを得ないです。
もしAIを使った場合でも、前処理が必要になるのがネックといっていいでしょう。

マシンスペックを上げ、Qwen3-VL:2B→Qwen3-VL:8Bにすると、メリットが見えてくるかもしれません。

ただ、どちらにしても、会計処理にかかわってくる部分は人間と同じかそれ以上の精度が求められるため、現状だとローカルOCRはハマりではないのかもしれません。

2. 時間

AIを使う場合限定ですが、今回のようにGPU 4GBのパソコンでも1枚の画像を処理するのに、3分かかっているため、完全自動化するならメリットが見えてきますが、前処理が必要になるため、そうもいきません。

人が介在しないといけないとなると、人件費+システム運営費といった構造になり、逆にコストが上がる可能性もあります。

3. コスト

もちろん、今回使用したOCRテクノロジーは全て無料で使えます。
とはいえ、繰り返しになりますが画像の前処理や確認作業が必要になるため、逆にコスト増になる可能性も否定できません。

クラウドOCRの結果

ちなみに、ChatGPTで試したところ、以下のとおり完璧でした。
さすがです。

{
    "company_name": "西日本旅客鉄道株式会社",
    "issue_date": "20251213",
    "total_amount": "10000"
}

しかも、この結果は画像の前処理は一切していませんし、無料版で試したものです。

また、私が有料で使っているPerplexityでも同様の結果となりました。

※ただし、複雑なレシートも存在するため、クラウド型であっても最終的には人の確認が必要と考えられるのは、重要な点です。

つまり、クラウド版を使えば「画像さえアップロードすれば高い精度で処理ができる」という状態になるため、完全自動化しやすく、人件費削減につながる可能性は高いと感じています。

また、もしChatGPTのウェブページからOCRを実行する場合は月額課金だけで処理できるので、経費を固定することができるでしょう。

そのため、もしコストが心配であれば、人+AI（ウェブページ）のハイブリッドで作業するのがベストではないでしょうか。

手順は以下のとおりです。

画像をChatGPT（ウェブページ）へアップロード
プロンプトを入力
データ取得（JSONなど）
JSONデータをコピーして、独自アプリへ貼り付け
ファイルを自動でリネーム（もしくはアップロードなど）

クラウドOCRとの比較

結論クラウド型の生成AIのみ実用向きとの結果になりました。

ツール	精度	ざっくり評価
Qwen3-VL:2B	日付・金額・会社名は正しく取得できた。	精度は良いが、前処理と処理時間を考えると「完全自動」には使いづらい。
tesseract 5.5.1	会社名・金額とも崩れが多く、日本語レシートでは厳しい。	高速だが誤認識が多く、業務利用にはおすすめしづらい。
easyOCR 1.7.2	会社名と日付は読めたが、合計金額は取得できなかった。	「下書き」程度なら使えるが、そのまま会計データにするのは不安。
rapidOCR 1.4.4	会社名・日付・金額は取れたが、文字の崩れが目立つ。	速さは優秀だが、最終的には人の目での確認が必要。
ChatGPT / Perplexity	3項目すべて正しく取得できた。	前処理なしで実用レベル。人件費とのトレードオフでは最有力候補。

意思決定パターン

今回の結果を踏まえると、OCRを実務で使用するのは以下3パターンとの結論です。

※ただし、どのパターンでも大なり小なり人の目での確認作業が必要になると考えてます。

1. ローカルOCR

ハイスペックなパソコンを使い、処理を高速化することが大前提ですが、外部に情報を出したくない場合は、選択肢の1つになると考えています。

2. クラウドOCR（ウェブページ）

OCRは、ChatGPTなどのウェブページを使い、ファイル名の変更などはローカルで行うというハイブリッド型です。

JSONデータをコピペすれば自動で処理するような流れにするといいでしょう。

3. クラウドOCR（API）

完全自動化に一番近い形です。
APIを使って実装するので、特定のフォルダに画像をいれておき、パソコンのバックグラウンドで処理を実行できます。

何ならngrokを使ってトンネリングさせ、LINEから直接ローカルパソコンにアクセス&自動処理する流れも実現できます。

もし人員が足りておらず「時間単価が高い人」がどうしても会計処理をせざるを得ない場合は、コスト的にこちらがおすすめですね。

企業様へのご提案

今回のようなIT技術に関する「経営判断のための調査」も請け負っております。

もし新規事業や業務改善などを実施する際に必要な情報がありましたら、お問い合わせからいつでもお気軽にご相談ください。

お待ちしております😊

おわりに

ということで、今回はいつもと違って調査レポート的な内容でお届けしました。

AIの台頭が著しいので、こういった経営に関連する内容も定期的に出していきたいと考えてます（ブログとして需要あるんですかね…🤔）

正直なところ、当初は「Qwen VLを使えばChatGPTとかVision APIなんていらないじゃん🎉」と思っていましたが、そんな簡単ではなかったですね。

なので、ローカル生成AIは現在のところテキスト（チャット）のみが実用に耐える領域ってことのようです。

テキストだけでもすごいですけどね（笑）

ぜひ、みなさんもいろいろとAIで何ができるか探ってみてくださいね。

ではでは〜！

「姪っ子が『かわいいだけじゃだめですか？』
は別の人だよ、って言ってました」

お問い合わせ、お待ちしております。

開発のご依頼はこちら: お問い合わせ

どうぞよろしくお願いいたします！ by 九保すこひ

前提として

1. 検証環境

2. 要求する精度について

3. 記事の目的

各OCRの「現実的な限界」

1. Qwen3-VL:2B（生成AIのOCR）

2. tesseract 5.5.1

3. easyOCR 1.7.2

rapidOCR 1.4.4

実データを読ませて見えてきた“ローカルOCRの限界”

1. 精度

2. 時間

3. コスト

クラウドOCRの結果

クラウドOCRとの比較

意思決定パターン

1. ローカルOCR

2. クラウドOCR（ウェブページ）

3. クラウドOCR（API）

企業様へのご提案

おわりに

あわせて読みたい！