融入置信度的文本图像翻译研究
伍凌辉1,2; 马聪1,2; 韩旭1,2; 赵阳1,2; 张亚萍1,2; 周玉1,2,3
发表期刊中文信息学报
2022
页码0
摘要

文本图像翻译旨在将嵌在图像中的源端语言文本翻译成目标语言。文本图像翻译系统通常由相互独立的光学字符识别(Optical Character Recognition, OCR)和机器翻译(Machine Translation, MT)模型级联组成。OCR模型将文本图像识别成转录文本,MT模型将转录文本翻译成目标语言。由于OCR模型转录文本存在噪声,而MT模型对噪声文本表现不佳,文本图像翻译系统性能远不如纯文本机器翻译系统。为缓解噪声文本带来的问题,鲁棒性机器翻译主要采用以下两种方法:1)使用合成噪声文本,以模拟OCR转录带来的噪声;2)利用干净文本和噪声文本的对比学习,拉近噪声文本和干净文本的分布。未能考虑以下问题:1)忽视来自OCR模型的置信度信息,未能考虑OCRMT系统的有效融合;2)仅采用合成噪声,类型单一,无法覆盖实际噪声类型。3)仅采用句子粒度的粗粒度对比损失,忽略细粒度的词的对比信息。为解决这上述问题,该文提出一种融合置信度信息的文本图像翻译方法,充分利用转录文本中每个字符输出的概率分布得到每个词的置信度信息,使级联式文本图像翻译系统中的OCR模型和机器翻译模型产生更有效的融合,同时针对OCR转录文本的噪声特点,设计一种能提供词粒度的对比信息的监督文本,提升模型性能。实验表明,所提方法在中译英以及英中文本图像翻译任务上相较于传统的管道式模型取得显著的提升。

关键词置信度 文本图像翻译 鲁棒性神经机器翻译
收录类别中文核心期刊要目总览
语种中文
文献类型期刊论文
条目标识符http://ir.ia.ac.cn/handle/173211/48593
专题多模态人工智能系统全国重点实验室_自然语言处理
通讯作者周玉
作者单位1.中国科学院自动化研究所 模式识别国家重点实验室,北京 100190
2.中国科学院大学 人工智能学院,北京 100049
3.凡语 AI 研究院 北京中科凡语科技有限公司,北京 100190
第一作者单位模式识别国家重点实验室
通讯作者单位模式识别国家重点实验室
推荐引用方式
GB/T 7714
伍凌辉,马聪,韩旭,等. 融入置信度的文本图像翻译研究[J]. 中文信息学报,2022:0.
APA 伍凌辉,马聪,韩旭,赵阳,张亚萍,&周玉.(2022).融入置信度的文本图像翻译研究.中文信息学报,0.
MLA 伍凌辉,et al."融入置信度的文本图像翻译研究".中文信息学报 (2022):0.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
融入置信度的文本图像翻译研究-伍凌辉.p(932KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[伍凌辉]的文章
[马聪]的文章
[韩旭]的文章
百度学术
百度学术中相似的文章
[伍凌辉]的文章
[马聪]的文章
[韩旭]的文章
必应学术
必应学术中相似的文章
[伍凌辉]的文章
[马聪]的文章
[韩旭]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 融入置信度的文本图像翻译研究-伍凌辉.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。