Institutional Repository of Chinese Acad Sci, Inst Automat, Natl Lab Pattern Recognit, Beijing 100190, Peoples R China
融入置信度的文本图像翻译研究 | |
伍凌辉1,2![]() ![]() ![]() ![]() | |
Source Publication | 中文信息学报
![]() |
2022 | |
Pages | 0 |
Abstract | 文本图像翻译旨在将嵌在图像中的源端语言文本翻译成目标语言。文本图像翻译系统通常由相互独立的光学字符识别(Optical Character Recognition, OCR)和机器翻译(Machine Translation, MT)模型级联组成。OCR模型将文本图像识别成转录文本,MT模型将转录文本翻译成目标语言。由于OCR模型转录文本存在噪声,而MT模型对噪声文本表现不佳,文本图像翻译系统性能远不如纯文本机器翻译系统。为缓解噪声文本带来的问题,鲁棒性机器翻译主要采用以下两种方法:1)使用合成噪声文本,以模拟OCR转录带来的噪声;2)利用干净文本和噪声文本的对比学习,拉近噪声文本和干净文本的分布。未能考虑以下问题:1)忽视来自OCR模型的置信度信息,未能考虑OCR和MT系统的有效融合;2)仅采用合成噪声,类型单一,无法覆盖实际噪声类型。3)仅采用句子粒度的粗粒度对比损失,忽略细粒度的词的对比信息。为解决这上述问题,该文提出一种融合置信度信息的文本图像翻译方法,充分利用转录文本中每个字符输出的概率分布得到每个词的置信度信息,使级联式文本图像翻译系统中的OCR模型和机器翻译模型产生更有效的融合,同时针对OCR转录文本的噪声特点,设计一种能提供词粒度的对比信息的监督文本,提升模型性能。实验表明,所提方法在中译英以及英中文本图像翻译任务上相较于传统的管道式模型取得显著的提升。 |
Keyword | 置信度 文本图像翻译 鲁棒性神经机器翻译 |
Indexed By | 中文核心期刊要目总览 |
Language | 中文 |
Document Type | 期刊论文 |
Identifier | http://ir.ia.ac.cn/handle/173211/48593 |
Collection | 模式识别国家重点实验室_自然语言处理 |
Corresponding Author | 周玉 |
Affiliation | 1.中国科学院自动化研究所 模式识别国家重点实验室,北京 100190 2.中国科学院大学 人工智能学院,北京 100049 3.凡语 AI 研究院 北京中科凡语科技有限公司,北京 100190 |
First Author Affilication | Chinese Acad Sci, Inst Automat, Natl Lab Pattern Recognit, Beijing 100190, Peoples R China |
Corresponding Author Affilication | Chinese Acad Sci, Inst Automat, Natl Lab Pattern Recognit, Beijing 100190, Peoples R China |
Recommended Citation GB/T 7714 | 伍凌辉,马聪,韩旭,等. 融入置信度的文本图像翻译研究[J]. 中文信息学报,2022:0. |
APA | 伍凌辉,马聪,韩旭,赵阳,张亚萍,&周玉.(2022).融入置信度的文本图像翻译研究.中文信息学报,0. |
MLA | 伍凌辉,et al."融入置信度的文本图像翻译研究".中文信息学报 (2022):0. |
Files in This Item: | ||||||
File Name/Size | DocType | Version | Access | License | ||
融入置信度的文本图像翻译研究-伍凌辉.p(932KB) | 期刊论文 | 作者接受稿 | 开放获取 | CC BY-NC-SA | View |
Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.
Edit Comment