创客之家 - 古籍 OCR v2 — 文言文专用识别引擎

古籍 OCR v2 — 文言文专用识别引擎正在开发

人工智能 · 由 input@chuangkehome.com 创建 · 2026-05-14

让电脑读懂竖排繁体的虫蛀古籍，为古籍数字化扫清最后一道障碍。

项目介绍

通用 OCR 对现代印刷体表现优异，但遇到古籍（竖排、异体字、避讳字、虫蛀污损、朱墨批注）时准确率断崖式下跌。古籍 OCR v2 基于 PaddleOCR + 多模态大模型，针对 8 种古籍版面类型专项训练。核心能力：①竖排/双行夹注版面自动识别 ②异体字→规范字智能映射（兼容 CJK-ExtB/C/D）③污损缺笔字基于上下文推理补全 ④批注与正文分离输出 ⑤Web 批量上传+逐页校对工作台。 v1 版已在 5 所高校试用，v2 目标将异体字召回率提升至 95%+，支持用户自定义字映射表。

项目背景

全国古籍藏量约 5000 万册，数字化率不足 10%。瓶颈不是扫描设备，而是 OCR 工具——通用引擎对古籍识别率不到 60%，人工校对成本极高。这是一个既有文化传承价值、又有细分市场需求的赛道。

目标用户

高校文献研究所、公共图书馆古籍部、民间藏书家、地方志编纂办

技术栈

PaddleOCR 基础检测识别

PyTorch + Transformers 多模态上下文推理

Django REST Framework 后端 API

Vue.js 校对工作台前端

PostgreSQL + pgvector 字形向量检索

需要的资源

有古籍文字学背景的合作者（标注和验证）人才

更多古籍扫描图像作为训练数据（合作机构提供）数据

GPU 算力租赁每月约 800-1500 元资金

项目团队

暂无团队成员信息

开放招募

NLP/图像算法合作者

有 OCR 或多模态模型微调经验，PaddleOCR 优先

招募 1 人

前端开发者

Vue.js + Canvas 交互，校对标注工具开发

招募 1 人

标注志愿者

对古籍有兴趣，帮助校验异体字映射

招募 3 人

里程碑进度

完成 50%

v1 发布（5 校试用）

计划完成: 2026-01-31

已完成

异体字映射数据集构建

计划完成: 2026-04-30

已完成

多模态大模型集成

计划完成: 2026-06-30

进行中

v2 公测

计划完成: 2026-08-31

未开始

讨论区

登录后即可参与讨论

还没有评论，来抢沙发吧

项目信息

类别人工智能
状态正在开发
创始人 input@chuangkehome.com
团队成员 0 人
创建时间 2026-05-14
最近更新 2026-05-20
可见性 🌐 公开

浏览

成员

古籍 OCR v2 — 文言文专用识别引擎 正在开发