楼主: 滨滨有利123
602 0

[投稿经验分享] 揭秘OCR的策略规则 [推广有奖]

  • 0关注
  • 30粉丝

副教授

24%

还不是VIP/贵宾

-

威望
0
论坛币
198 个
通用积分
25.4545
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
9596 点
帖子
328
精华
0
在线时间
381 小时
注册时间
2015-4-26
最后登录
2023-9-23

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

OCR 是为光学字符识别,它主要用来提取文本图像文件上的文字内容,通常在获取文字内容之前先对图像文件进行一系列分析操作。它的应用领域十分广泛,如教育、交通、医疗,是工业界和学术界的重点研究目标之一。如今,随着互联网进程的快速发展,全民已迈进大数据时代,产生的数据量越来越大,这里就会产生各种图像数据。今天就跟各位分享在风控里具体的OCR策略规则。


在整个风险流程里,一般在做完OCR验证之后,便有一道人脸策略。在人脸策略验证之后,一般会给予一个额度,之后便会进入提现环节了。关于这个细节,不清楚的可以了解下这个流程图:

图片1.jpg


当然在整个登陆环节的流程里,可以做很多的策略把控,相应也会有很多问题点,比如常见的两个问题:

细节一:在提现环节有时会再卡下人脸检测的策略,这个人脸的策略是一定需要过的吗?

细节二:就是在提现环节是需要过人脸,但是在具体申请借款的时候,也同样需要过人脸吗?


各位可以思考下以上两个细节问题,有兴趣了解再在知识星球上揭秘。


昨天,我们已经提到了具体的人脸识别的三大模块:活体识别、OCR与人脸检测。在反欺诈模块里,也是用这三大模块进行反欺诈部署。

用这三层筛选能有效防控伪冒申请、虚假资料。


这三者的区别:

1.活体识别可精确到真实的个体,主要辨别的是人还是物。

2.OCR识别则是虚假身份证等伪冒风险的克星。

3.人脸检测是观测进件的是不是一个真实的人。


以上目前比较难区分的是OCR和人脸识别的策略。


OCR是为了识别一张图片的真实性,而人脸识别是为了识别进件的人是否是一张真实的脸,接下来再继续深入讨论OCR相关的策略和人脸识别的策略。


先梳理下OCR相关策略点。


首先先介绍下什么是OCR?

OCR (Optical Character Recognition,光学字符识别)。主要是通过检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;比如在我们进件端,通常需要甄别一张身份证。


在策略端我们有哪些具体的策略可以把控,如果分析相关的技术文档的话,我们能发现相关的参数有以下两点内容:


主要是分为以下几点规则:

一.退回规则(这里的要点需要重新提交详细的资料)

二.拒绝规则(这里的要点命中某些规则而造成直接拒绝)


退回规则主要有四种情况:






        1. 接口error字段不为空—调用异常

图片2.jpg



  2.接口识别字段有为空—字段识别质量问题

图片3.jpg


身份证上所有的结果都会识别,如果识别的字段为空,则这个字段有问题,识别这个字段没有识别出来


3.字段值为2—图片完整性问题

图片4.jpg



4.接口识别字段quality<0.15—质量问题

表示该区域是否存在质量问题(存在影响识别的光斑、阴影、遮挡、污渍等)。取[0,1]区间实数,3位有效数字。

注:

·  存在质量问题如果是光斑,部分遮挡,也是可以识别出内容的,本字段对存在留存需求的场景提供参考

·  当字段为“portrait”时,quality返回值暂时没有意义

·   系统对质量判断的默认阈值为0.15



拒绝规则

1.接口识别字段逻辑问题—涉嫌造假

图片5.jpg




2.正反面识别异常

识别的结果信息:

·         1001: 表示识别出是一张没有问题的身份证;

·         1002: 表示识别出是一张身份证,但在识别结果中存在异常情况,其中异常情况包括:

·         有字段没有识别出来

·         识别的结果中存在逻辑问题(logic字段为1)

·         识别的字段上存在图片质量问题(quality字段低于默认的阈值)

·         识别的结果上存在合法性问题(legality字段的五分类结果不为真实身份证)

注:其他错误码请预留处理方案,我们可能增加其他情况的返回。


3.身份证异常—ID Phone>=ID phone Threshold

图片6.jpg


识别正常1001

识别异常1002,说明身份证逻辑有问题、包括逻辑问题、质量问题、合法性问题,刚刚把,合法性有问题所以把他拒绝掉

对于真实身份证的概率,就是一个阈值,一般是大于等于一个阈值就是真实,比如的说有分类1+2+3+4+5

真实身份的概率减小,所以实际上给与的分,实际上大于他给与的阈值的时候就是正常的,小于阈值时候就是异常。


写在最后:作为一名策略人员虽然不用懂底层的业务逻辑,但也需要熟知具体的技术逻辑,可以无障碍阅读相关的技术文档,了解里面的相关名词比如josn、tokenkey、api,返回参数的具体含义等。


最后在把控相关的策略的时候,一定要记住以下几点:

1.交互简单、速度更快

2.较少通过率的压力

3.优化客户体验

4.提高不发分子的试错成本

提高了试错的成本,拒绝惩罚期的规则就可以放到策略端里。



这份文字版的详细策略说明也会同步到知识星球上,关于这几点的策略建议我们会在上面稍作展开。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 10:09