古籍 OCR v2 — 文言文专用识别引擎 正在开发

人工智能 · 由 input@chuangkehome.com 创建 · 2026-05-14

古籍 OCR v2 — 文言文专用识别引擎
让电脑读懂竖排繁体的虫蛀古籍,为古籍数字化扫清最后一道障碍。
项目介绍
通用 OCR 对现代印刷体表现优异,但遇到古籍(竖排、异体字、避讳字、虫蛀污损、朱墨批注)时准确率断崖式下跌。古籍 OCR v2 基于 PaddleOCR + 多模态大模型,针对 8 种古籍版面类型专项训练。 核心能力:①竖排/双行夹注版面自动识别 ②异体字→规范字智能映射(兼容 CJK-ExtB/C/D)③污损缺笔字基于上下文推理补全 ④批注与正文分离输出 ⑤Web 批量上传+逐页校对工作台。 v1 版已在 5 所高校试用,v2 目标将异体字召回率提升至 95%+,支持用户自定义字映射表。
项目背景
全国古籍藏量约 5000 万册,数字化率不足 10%。瓶颈不是扫描设备,而是 OCR 工具——通用引擎对古籍识别率不到 60%,人工校对成本极高。这是一个既有文化传承价值、又有细分市场需求的赛道。
目标用户

高校文献研究所、公共图书馆古籍部、民间藏书家、地方志编纂办

技术栈
PaddleOCR 基础检测识别
PyTorch + Transformers 多模态上下文推理
Django REST Framework 后端 API
Vue.js 校对工作台前端
PostgreSQL + pgvector 字形向量检索
需要的资源
有古籍文字学背景的合作者(标注和验证) 人才
更多古籍扫描图像作为训练数据(合作机构提供) 数据
GPU 算力租赁每月约 800-1500 元 资金
项目团队

暂无团队成员信息


开放招募
NLP/图像算法合作者
有 OCR 或多模态模型微调经验,PaddleOCR 优先
招募 1 人
前端开发者
Vue.js + Canvas 交互,校对标注工具开发
招募 1 人
标注志愿者
对古籍有兴趣,帮助校验异体字映射
招募 3 人
里程碑进度
完成 50%
v1 发布(5 校试用)
计划完成: 2026-01-31
已完成
异体字映射数据集构建
计划完成: 2026-04-30
已完成
多模态大模型集成
计划完成: 2026-06-30
进行中
v2 公测
计划完成: 2026-08-31
未开始
讨论区
登录 后即可参与讨论

还没有评论,来抢沙发吧

项目信息
  • 类别 人工智能
  • 状态 正在开发
  • 创始人 input@chuangkehome.com
  • 团队成员 0 人
  • 创建时间 2026-05-14
  • 最近更新 2026-05-20
  • 可见性 🌐 公开
61
浏览
0
收藏
0
成员