基于全局词汇信息的中文口语句子标点生成 | |
陈萧![]() ![]() | |
2013-08 | |
会议名称 | 全国人机语音通讯学术会议 |
会议录名称 | 第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集 |
会议日期 | 5-7 |
会议地点 | 贵州贵阳 |
其他摘要 |
Punctuation generation is very important for automatic speech recognition. It greatly improves readability of transcripts and user experience, and facilitates following natural language processing tasks. In this paper, we develop a pure text information based method for punctuation generation for Chinese spoken sentence. The idea is that, first, modeling the relations between global lexical information and punctuation by different segment-level of sentence, then, combining these models using multi-layer perception, final, generating punctuation (period, question mark, exclamation mark). Results indicate that, compared with the baseline, the proposed method results in an 8.9% improvement in un-weighted accuracy and a 4.7% improvement in weighted accuracy. We achieve an un-weighted accuracy of 85.9% and a weighted accuracy of 92.2%. We study the effect on performance of the amount of training data. Results indicate that using larger training data sets consistently improves performance.
|
关键词 | 标点生成 全局信息 词汇信息 模型融合 |
文献类型 | 会议论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/11820 |
专题 | 数字内容技术与服务研究中心_听觉模型与认知计算 |
通讯作者 | 徐波 |
作者单位 | 中国科学院自动化研究所 |
推荐引用方式 GB/T 7714 | 陈萧,柯登峰,徐波. 基于全局词汇信息的中文口语句子标点生成[C],2013. |
条目包含的文件 | 下载所有文件 | |||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
2013NCMMSC.pdf(188KB) | 会议论文 | 开放获取 | CC BY-NC-SA | 浏览 下载 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[陈萧]的文章 |
[柯登峰]的文章 |
[徐波]的文章 |
百度学术 |
百度学术中相似的文章 |
[陈萧]的文章 |
[柯登峰]的文章 |
[徐波]的文章 |
必应学术 |
必应学术中相似的文章 |
[陈萧]的文章 |
[柯登峰]的文章 |
[徐波]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论