检 索
学术期刊
切换导航
首页
文章
期刊
投稿
首发
学术会议
图书中心
新闻
新闻动态
科学前沿
合作
我们
一封信
按学科分类
Journals by Subject
按期刊分类
Journals by Title
医药卫生
Medicine & Health
工程技术
Engineering & Technology
数学与物理
Math & Physics
经济与管理
Economics & Management
人文社科
Humanities & Social Sciences
化学与材料
Chemistry & Materials
信息通讯
Information & Communication
地球与环境
Earth & Environment
生命科学
Life Sciences
我要投稿
查看投稿进度
学术期刊
按学科分类
Journals by Subject
按期刊分类
Journals by Title
医药卫生
Medicine & Health
工程技术
Engineering & Technology
数学与物理
Math & Physics
经济与管理
Economics & Management
人文社科
Humanities & Social Sciences
化学与材料
Chemistry & Materials
信息通讯
Information & Communication
地球与环境
Earth & Environment
生命科学
Life Sciences
在线客服
客服电话:
400-188-5008
客服邮箱:
service@ccnpub.com
投诉举报:
feedback@ccnpub.com
人工客服
工作时间(9:00-18:00)
官方公众号
科技成果·全球共享
请选择
目标期刊
首页
期刊
文章
自动构建基于电视剧字幕和剧本的日常会话基础标注库
下载:
44
浏览:
364
梁宇海1
周强2
《当代中文学刊》
2020年2期
摘要:
真实对话数据量不足已经成为限制数据驱动的对话生成系统性能提升的主要因素,尤其是汉语语料。为了获得丰富的日常会话语料,可以利用字幕时间戳信息把英语电视剧的英文字幕及其对应的中文字幕进行同步,从而生成大量的汉英双语同步字幕。然后通过信息检索的方法把双语同步字幕的英文句子跟英语剧本的演员台词进行自动对齐,从而将剧本中的场景和说话者信息映射到双语字幕中,最后得到含有场景及说话者标注的汉英双语日常会话库。该文利用这种方法,自动构建了包含978 109对双语话语消息的接近人类日常会话的多轮会话数据库CEDAC。经过抽样分析,场景边界的标注准确率达到97.0%,而说话者的标注准确率也达到91.57%。该标注库为后续进行影视剧字幕说话者自动标注和多轮会话自动生成研究打下了很好的基础。
[1/1]
|<
<
1
>
>|
在线客服::
点击联系客服
联系电话::
400-188-5008
客服邮箱::
service@ccnpub.com
投诉举报::
feedback@ccnpub.com
人工客服
工作时间(9:00-18:00)
官方公众号
科技成果·全球共享