tesseract.js - 100以上の言語に対応する純粋なJavascriptOCR📖🎉🖥

(Pure Javascript OCR for more than 100 Languages 📖🎉🖥)

Created at: 2015-06-24 10:49:52
Language: JavaScript
License: Apache-2.0

Tesseract.js

Lint&Test CodeQL Gitpod Ready-to-Code OpenCollectiveの経済的貢献者 npmバージョン メンテナンス ライセンス コードスタイル 合計ダウンロード数 ダウンロード月間

バージョン2が利用可能になり、マスターブランチで開発中です。v2についてのストーリーを読んでください:なぜtesseract.js v2をリファクタリングするのですか?バージョン1 のsupport/1.x
ブランチを 確認してください


Tesseract.jsは、画像からほぼすべての言語の単語を取得するjavascriptライブラリです。(デモ

画像認識

ファンシーデモgif

ビデオリアルタイム認識

Tesseract.jsビデオ

Tesseract.jsは、TesseractOCRエンジンのemscripten ポートをラップします。これは、 CDNを使用してwebpackまたはプレーンスクリプトタグを使用するブラウザーと、 Node.jsを使用するサーバーで機能します。インストール後、使用は次のように簡単です。

import Tesseract from 'tesseract.js';

Tesseract.recognize(
  'https://tesseract.projectnaptha.com/img/eng_bw.png',
  'eng',
  { logger: m => console.log(m) }
).then(({ data: { text } }) => {
  console.log(text);
})

またはより必須

import { createWorker } from 'tesseract.js';

const worker = createWorker({
  logger: m => console.log(m)
});

(async () => {
  await worker.load();
  await worker.loadLanguage('eng');
  await worker.initialize('eng');
  const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png');
  console.log(text);
  await worker.terminate();
})();

APIの完全な説明については、ドキュメントを確認してください。

v2での主な変更

  • tesseract v4.1.1にアップグレードします(emscripten 1.39.10アップストリームを使用)
  • 同時に複数の言語をサポートします。例:英語と繁体字中国語の場合はeng +chi_tra
  • サポートされている画像形式:png、jpg、bmp、pbm
  • WebAssemblyをサポートします(ブラウザーがサポートしていない場合はASM.jsにフォールバックします)
  • Typescriptをサポート

インストール

Tesseract.jsは、

<script>
ローカルコピーまたはCDNを介してタグを処理し、Webpackを介し
npm
てNode.jsを使用して動作し
npm/yarn
ます。

CDN

<!-- v2 -->
<script src='https://unpkg.com/[email protected]/dist/tesseract.min.js'></script>

<!-- v1 -->
<script src='https://unpkg.com/[email protected]/src/index.js'></script>

スクリプトを含めると、

Tesseract
変数はグローバルに使用可能になります。

Node.js

Tesseract.jsには現在、Node.jsv6.8.0以降が必要です

# For v2
npm install tesseract.js
yarn add tesseract.js

# For v1
npm install [email protected]
yarn add [email protected]

ドキュメンテーション

tesseract.jsを好きなように使ってください!

貢献

発達

Tesseract.jsの開発コピーを実行するには、次のようにします。

# First we clone the repository
git clone https://github.com/naptha/tesseract.js.git
cd tesseract.js

# Then we install the dependencies
npm install

# And finally we start the development server
npm start

開発サーバーは、お気に入りのブラウザーのhttp:// localhost:3000 / examples / browser/demo.htmlで利用できます。自動的に再構築され、 srcフォルダー内のファイルを変更する

tesseract.dev.js
と自動的に再構築されます。
worker.dev.js

シングルクリックでオンラインセットアップ

貢献するためにGitpod(IDEのような無料のオンラインVSコード)を使用することができます。シングルクリックで、ビルド&スタートスクリプトがすでに処理されているコードワークスペースを起動し、数秒以内に開発サーバーを起動して、時間を無駄にすることなくすぐに貢献を開始できるようにします。

Gitpodで開く

静的ファイルの作成

コンパイルされた静的ファイルをビルドするには、以下を実行するだけです。

npm run build

これにより、ファイルが

dist
ディレクトリに出力されます。

寄稿者

コードコントリビューター

このプロジェクトは、貢献してくれたすべての人々のおかげで存在します。[貢献]。

財政的貢献者

財政的貢献者になり、私たちのコミュニティを維持するのを手伝ってください。[貢献]

個人

組織

組織でこのプロジェクトをサポートします。あなたのロゴはあなたのウェブサイトへのリンクとともにここに表示されます。[貢献]