融入置信度的文本图像翻译研究

CASIA OpenIR > 多模态人工智能系统全国重点实验室 > 自然语言处理

	融入置信度的文本图像翻译研究
	伍凌辉1,2 ; 马聪 1,2; 韩旭 1,2; 赵阳1,2 ; 张亚萍1,2 ; 周玉1,2,3
发表期刊	中文信息学报
	2022
页码	0
摘要	文本图像翻译旨在将嵌在图像中的源端语言文本翻译成目标语言。文本图像翻译系统通常由相互独立的光学字符识别(Optical Character Recognition, OCR)和机器翻译（Machine Translation, MT）模型级联组成。OCR模型将文本图像识别成转录文本，MT模型将转录文本翻译成目标语言。由于OCR模型转录文本存在噪声，而MT模型对噪声文本表现不佳，文本图像翻译系统性能远不如纯文本机器翻译系统。为缓解噪声文本带来的问题，鲁棒性机器翻译主要采用以下两种方法：1）使用合成噪声文本，以模拟OCR转录带来的噪声；2）利用干净文本和噪声文本的对比学习，拉近噪声文本和干净文本的分布。未能考虑以下问题：1）忽视来自OCR模型的置信度信息，未能考虑OCR和MT系统的有效融合；2）仅采用合成噪声，类型单一，无法覆盖实际噪声类型。3）仅采用句子粒度的粗粒度对比损失，忽略细粒度的词的对比信息。为解决这上述问题，该文提出一种融合置信度信息的文本图像翻译方法，充分利用转录文本中每个字符输出的概率分布得到每个词的置信度信息，使级联式文本图像翻译系统中的OCR模型和机器翻译模型产生更有效的融合，同时针对OCR转录文本的噪声特点，设计一种能提供词粒度的对比信息的监督文本，提升模型性能。实验表明，所提方法在中译英以及英中文本图像翻译任务上相较于传统的管道式模型取得显著的提升。
关键词	置信度文本图像翻译鲁棒性神经机器翻译
收录类别	中文核心期刊要目总览
语种	中文
文献类型	期刊论文
条目标识符	http://ir.ia.ac.cn/handle/173211/48593
专题	多模态人工智能系统全国重点实验室_自然语言处理
通讯作者	周玉
作者单位	1.中国科学院自动化研究所模式识别国家重点实验室，北京 100190 2.中国科学院大学人工智能学院，北京 100049 3.凡语 AI 研究院北京中科凡语科技有限公司，北京 100190
第一作者单位	模式识别国家重点实验室
通讯作者单位	模式识别国家重点实验室
推荐引用方式 GB/T 7714	伍凌辉,马聪,韩旭,等. 融入置信度的文本图像翻译研究[J]. 中文信息学报,2022:0.
APA	伍凌辉,马聪,韩旭,赵阳,张亚萍,&周玉.(2022).融入置信度的文本图像翻译研究.中文信息学报,0.
MLA	伍凌辉,et al."融入置信度的文本图像翻译研究".中文信息学报 (2022):0.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
融入置信度的文本图像翻译研究-伍凌辉.p（932KB）	期刊论文	作者接受稿	开放获取	CC BY-NC-SA	浏览