让电脑读懂竖排繁体的虫蛀古籍,为古籍数字化扫清最后一道障碍。
项目介绍
通用 OCR 对现代印刷体表现优异,但遇到古籍(竖排、异体字、避讳字、虫蛀污损、朱墨批注)时准确率断崖式下跌。古籍 OCR v2 基于 PaddleOCR + 多模态大模型,针对 8 种古籍版面类型专项训练。
核心能力:①竖排/双行夹注版面自动识别 ②异体字→规范字智能映射(兼容 CJK-ExtB/C/D)③污损缺笔字基于上下文推理补全 ④批注与正文分离输出 ⑤Web 批量上传+逐页校对工作台。
v1 版已在 5 所高校试用,v2 目标将异体字召回率提升至 95%+,支持用户自定义字映射表。
项目背景
全国古籍藏量约 5000 万册,数字化率不足 10%。瓶颈不是扫描设备,而是 OCR 工具——通用引擎对古籍识别率不到 60%,人工校对成本极高。这是一个既有文化传承价值、又有细分市场需求的赛道。
目标用户
高校文献研究所、公共图书馆古籍部、民间藏书家、地方志编纂办
技术栈
PaddleOCR
基础检测识别
PyTorch + Transformers
多模态上下文推理
Django REST Framework
后端 API
Vue.js
校对工作台前端
PostgreSQL + pgvector
字形向量检索
需要的资源
有古籍文字学背景的合作者(标注和验证)
人才
更多古籍扫描图像作为训练数据(合作机构提供)
数据
GPU 算力租赁每月约 800-1500 元
资金
项目团队
暂无团队成员信息
开放招募
NLP/图像算法合作者
有 OCR 或多模态模型微调经验,PaddleOCR 优先
招募 1 人
前端开发者
Vue.js + Canvas 交互,校对标注工具开发
招募 1 人
标注志愿者
对古籍有兴趣,帮助校验异体字映射
招募 3 人
里程碑进度
v1 发布(5 校试用)
计划完成: 2026-01-31
异体字映射数据集构建
计划完成: 2026-04-30
多模态大模型集成
计划完成: 2026-06-30
v2 公测
计划完成: 2026-08-31
项目信息
- 类别 人工智能
- 状态 正在开发
- 创始人 input@chuangkehome.com
- 团队成员 0 人
- 创建时间 2026-05-14
- 最近更新 2026-05-20
- 可见性 🌐 公开
61
浏览
0
收藏
0
成员