OCR技术-专联译盟网 二维码
在各行业的业务文件翻译需求中,不可编辑的原文一直是困扰客户和翻译公司的难题,这样的不可编辑文件包含扫描件图片、扫描件PDF文件、照片、手写文件等。传统的处理方式是,将不可编辑原文进行截图处理,建立两列表格,即:原文列、译文列,将截图原文置于原文列相应的单元格内,翻译公司或客户在译文列对应进行翻译、审校、修改、审定、母语润色等环节。这种方式的优点是,不用提取原文内容,翻译速度较快;缺点是不可编辑原文无法应用CAT类软件进行服务翻译或进行翻译也出现大量原文错误,已经翻译的译文无法存储到记忆库中,因此,译文的统一性、翻译效率大大降低。因此,提取不可编辑原文成为翻译前非常重要的环节,如果通过人工速录方式,译文提取成本较高、效率较低,因此,“提取技术+人工校对”的方式成为快速、优质提取不可编辑原文的重要手段,OCR技术在翻译中的应用需求营运而生。
狭义上的定义,OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如:扫描仪、相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状转换为计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(IntelligentCharacter Recognition)的名词也因此而产生。 当前,软件OCR技术取得了广泛的应用,即:应用OCR软件识别描件图片、扫描件PDF文件、照片、手写文件等不可编辑原文,通过进一步的人工校对后,输出与不可编辑文件一致的可编辑版本原文。这种类型的OCR应用场景现阶段越来越多地被应用于不可编辑原文的提取技术中。
ABBYYFineReader、Image to OCR Converter、adobeacrobat、捷速OCR文字识别、Dynamsoft OCRSDK、文通、灵云等。 其中: ABBYYFineReader世界排名第一;识别精度达99%; Imageto OCR Converter读取的图像格式和PDF文件,并可以从照相机扫描图像; Adobeacrobat采用先进OCR技术,可识别扫描或照片中的文本,并将其转换保持原有的排版的可编辑PDF文档,可以将发票,合同,报表和订单表格中的信息提取到一张Excel表格中。 推荐翻译产品
业务联系方式 翻译业务专线:400-878-8906 翻译业务微信: 公众号-云联译盟网 本文由专联译盟网原创并发布,未经授权不得转载和(或)用于商业用途。转载须注明文章来源于专联译盟网(www.zlitra.com)。 |