Skip to content

Releases: xushengfeng/eSearch-OCR

5.0.0

25 Sep 11:53
Compare
Choose a tag to compare

支持段落排版识别

输出格式更新

Full Changelog: 4.2.5...5.0.0

4.0.0

09 Jul 10:27
Compare
Choose a tag to compare

支持空格识别了!
按理来说paddleocr的onnx模型是支持空格的,但我本以为是图像预处理问题,由于我对python的调试不是很了解,所以旧先用简单的分词去暂时修复空格识别问题。
最近着手修复这个问题,注意到ppocr_keys_v1.txt字典文件本身不包含空格,我开始怀疑是decode出了问题。
paddleocr源码里通过use_space这个参数自动为字典追加一个空格,而3.0.0的源码里没有这个操作(decode部分摘自paddlejs)。这样的话,当ocr识别出空格,应该会返回undefined(超出索引),可调试时并没有。于是乎,我发现了盲点: https://github.com/xushengfeng/eSearch-OCR/blob/a1e940a12be069500218b8b7a273796e0597ea1c/js/js.js#L253 中的pred_len - 1,起初我认为是由于列表区间开闭问题所以才添加的,后来我发现,Array.prototype.slice()不包括end,所以空格索引被意外裁剪了。

我还将其导出为esearch-ocr模块,大家可以在其他项目里引用

Full Changelog: 3.0.0...4.0.0

3.0.0

14 Aug 07:14
Compare
Choose a tag to compare
init

2.5.0

04 May 04:34
Compare
Choose a tag to compare

适用于 eSearch 1.5.0 及预计以上版本。
打包了 ppocr,避免在 eSearch 中携带过大模型。

若软件内下载失败,自行根据系统版本下载并解压缩到配置目录。Windows需要执行cp15e.exe

2.0.0

27 Mar 03:11
Compare
Choose a tag to compare

Linux 和 Windows 都是由官方 C++ Demo 编译而来。
macOS 因找不到所需的库,所以使用官方 Python Demo 打包而来。