靠准确性、速度、成本领先。用不少于3万条的数据进行验证,开发出的字符识别引擎
靠准确性、速度、成本领先。用不少于3万条的数据进行验证,开发出的字符识别引擎
“DEEP READ”是一种使用了AI字符识别技术的手写文本数据转换服务。它利用深层学习,用AI进行自动数据转换。与传统的OCR(光学字符识别)和常规数据输入相比,它在精度、速度和成本方面具有压倒性优势。我们已经验证了大约35,000个手写测试数据,其中包括潦草字符,并且已达到94.5%的准确度,这超过了手动输入数据时平均93%的准确度。
DEEP READ负责执行官 / DoubleYard Inc. CEO
安永 达矢
他出生于中国上海市。他从初中一年级开始编程,高中毕业后单身一人到日本留学。2002年,他从东京大学研究研电子信息工学科毕业,获得研究生学位。毕业后,他进入了SAP日本株式会社工作。他有着在日本、德国、美国参与大型系统开发的经验,担任过数个项目的组长。他于2011年进入iDeep Solutions,主要负责大规模远程会议系统的研发。并于2016年4月参加EDUTECH LAB AP PTE. LTD.(新加坡),担任AI产品的开发组长。现做作为EduLab株式会社的Vice President,他将利用其技术能力和日中英三国语言的优势,掌控AI业务。
他将利用技术提高劳动密集型业务的工作效率。
包括其前身——教育测量研究所的业务在内,EduLab集团从大约15年前就接到了100万人规模的测试评分业务,一直在对大量答卷进行分析。
而开发DEEP READ的背景是为了解决一直以来存在的课题,即减少答卷评分所需花费的大量时间和费用。还有一个原因是,从2020年的大学招生中心考试开始,将减少答题卡等选择式考题,而增加记述式考题,因此对自动评分的需求将进一步增加。
很多公司已利用OCR技术解决了字符识别问题。传统的OCR技术可以将各种字体类型转换为数据库,从而可以将数据高精度地转换为数据。但由于OCR技术无法识别新字体或者对潦草的手写字符的识别率较低,所以一般都是通过人工输入(打孔输入)来对手写字符进行数据化的。
很多企业和团体将手写字符输入业务以BPO(外部委托)方式委托给国外公司等,这将耗费大量时间成本和费用成本。
有许多保险公司、医院、金融公司等用纸张管理着客户数据和各类申请表等大量数据。
两年前,为了解决上述问题,我们以提高本公司的教育内容和评分业务的效率为基础,开始研发人工智能字符识别技术。
字符识别准确率平均达到94.5%,并平均节约了83%的作业时间
DEEP READ是一种与传统的OCR技术完全不同的字符识别技术,它利用的是基于深度学习的AI(人工智能)技术。
在开发的过程中,我们也和其他竞争对手一样尝试过一次识别一个字符的方式,但手写字符有时会出现字符之间的边界不明显,或者2、3个字符连在一起的情况。而且存在网格线时,我们很难将字符和网格线分开。
此外,手写字符中还存在很多因为潦草而非常难以辨别的文字,例如日语片假名中的“チ”和汉字“千”,片假名中的“ユ”和的“コ”等。
我们研发的是一种能够不仅识别单文字符,也能识别前后文本的方法。
我们通过文章走势和文字间的关系等推理来识别手写字符。我们通过让让AI用人类阅读时所采用的流程学习文章的上下文,成功地提高了手写识别的准确性。
此外,由于汉字是由偏旁组合而成的,所以对一个个汉字进行分开识别时,就会出现将“林”识别为“木”、“木”的问题等。我们通过AI逐渐对这个问题进行改进,现在可以以非常高的精度读取多个字符。
目前DEEP READ的字符识别准确率已达到94.5%。虽然有些竞争对手号称其准确率更高,但其中很多因为手写文字验证数据样本太少而导致可信性较低。
DEEP READ的准确率是通过金融、教育、政府等所有行业的35,000项测试数据验证过的。此外,在考试答卷方面,我们也通过实际客户的数据进行了验证,得到了非常高的准确率。
不限行业,不限工种,探索范围更广的服务
在教育领域,2020年日本政府将计划对学习指导要领进行修订,可以预见今后记述式考题将不断增加,而DEEP READ将对提高评分业务的效率有很大贡献。
此外,我们认为近年来出于提高效率、有效利用数据库等的要求,对于银行和保险申请单、医疗诊断书、信用开申请手续、政府各类申报手续等纸面数据的数字化需求也在逐年增加,因此市场规模宏大。
我们现在也在开发DEEP READ的英文版。由于英语只有字母,所以准确度高于日语,平均准确度达到97%。未来我们不仅计划要将业务扩展至欧美,还要向中国和印度进军。
我们计划利用字符识别技术,和各合作伙伴协作,在提高公司的业务效率的同时,创造出新的服务和产品。
业绩
-
- 2018年12月28日 业绩介绍
- 面向中国具有潜力的市场,开展教育培训事业。线下+线上教育服务“自习室”