PDF下载
面向ELAN软件的手语汉语平行语料库构建

吴蕊珠1 李晗静2 吕会华2 姚登峰2

1.北京联合大学北京市信息服务工程重点实验室;2.北京联合大学特殊教育学院

摘要: 建立手语汉语平行语料库的目的是用于机器翻译和语言对比研究,并且能够系统地保存手语资源,保护手语和聋人文化。手语汉语平行语料库存储的内容主要包括手语视频、被采集者信息和标注者信息,以及通过多媒体标注软件ELAN转写的十四层标注信息,包括手控和非手控信息。该文采用基于向量空间的余弦相似性算法,实现了用手语语料相似度的计算来帮助语料库去重,并取得了较明显的效果;同时用此算法进行专家相似度测试以确保语料库的质量。
关键词: 手语;平行语料库;转写
DOI:
基金资助:
文章地址: