发票与票据 OCR:字段级校验怎样做才安全?
「发票与票据文字提取」对字段精度要求极高:发票代码、号码、开票日期、价税合计、税率与购买方信息任错一位都可能对不上账。手机拍照常带来透视、反光和阴影,OCR 更容易把「1」读成「7」、把「0」读成「O」。在 `invoice-text-extract` 变体下,应把验收拆成字段级:金额类走合计勾稽,代码类走位数与校验位规则(若你们内规有),日期类走格式校验。遇到折叠痕或印章压住数字,宁可手工录入该字段也不要盲信整页结果。与财务系统对接前,固定「图片—识别文本—复核人」三件套存档,能显著降低月末对账争议。
发票文字提取建议步骤(invoice-text-extract)
- 在 `invoice-text-extract` 页面拍照或上传发票图片,尽量压平纸面、避免强光反射;可先裁切仅含关键字段的区域以提高识别率。
- 逐项核对代码、号码、日期、金额与税价分离行;发现异常时用计算器复核价税合计是否等于明细之和。
- 将校对后的字段粘贴到账务或报销系统,并保存原图与识别日志;涉及增值税专票等敏感凭证时按公司档案制度加密存储。
发票 OCR 常见问题
财务批量处理发票 OCR 时,应先统一哪些字段校验规则?
至少统一金额小数位、日期格式、发票代码/号码位数与必填项清单,并规定「合计≠明细之和」时必须退回重拍或手工修正;禁止跳过复核直接入账。
价税合计与明细加总差一分钱,应该信 OCR 还是信计算器?
以票面印刷逻辑为准用计算器复核;若仍不一致,退回业务重拍或手工录入并记录差异原因,禁止强行抹平。
发票代码或号码少识别一位,怎样在流程上拦截?
在录入模板中配置固定位数与格式校验,不通过即拒绝导入;同时保存原始照片以便税务或审计抽查。
电子发票截图与纸质发票照片在 OCR 上有什么注意点?
电子票注意屏幕摩尔纹与亮度;纸质票注意反光与印章遮盖关键字段,必要时调整拍摄角度或单独拍摄被遮挡区域。
财务共享中心高峰期如何分工避免同一发票被重复 OCR?
用发票号码+代码做去重键,并在工单系统里锁定处理人;重复任务应在队列层合并而不是在结果层事后合并。