文章-世纪中文出版社

杨陟卓1 李春转1 张虎1 钱揖丽1 李茹1，2 《中文研究》 2020年8期

摘要:

相对于普通阅读理解，高考语文阅读理解难度更大，问句更加抽象，答案候选句的抽取除了注重与问句的相似性分析，还注重对材料内容以及作者的观点的概括归纳。因此该文提出了利用汉语框架网(Chinese FrameNet)抽取与问句语义相似的候选句的方法，通过识别篇章主题(段落主题句和作者观点句)，生成与问句相关的内容要点以及作者的观点态度，最终选取top 6作为答案句。在近12年北京市高考真题上进行测试，召回率达到了68.69%，验证了该方法的有效性。

基于JCWA-DLSTM的法律文书命名实体识别方法下载：54 浏览：423

王得贤1 王素格1，2 裴文生3 李德玉1，2 《中文研究》 2020年4期

摘要:

对于法律文书中证据名、证实内容和卷宗号等实体的正确提取，可以有效提升法官的办案效率。然而，这些实体与一般实体不同，具有字符长度较长和相互关联性较强的特点。因此，该文提出了一种基于JCWA-DLSTM(join character word and attention-dual long short-term memory)的法律文书命名实体识别方法。该方法利用字级语言模型获取词语的表示，同时，利用自注意力机制获得句子的内部表示。在此基础上，采用双向LSTM将句子内部表示和基于字级语言模型词语表示分别与词向量拼接编码，再将两种语义表示拼接融合，获得最终的句子语义表示。最后利用CRF将句子的语义表示解码，得到最优标记序列。实验结果表明，该文提出的方法可对法律文书中的证据名、证实内容和卷宗号等实体边界进行有效的确定，提升了命名实体识别的结果。

面向复杂有权网络的社区发现方法研究下载：58 浏览：307

谭红叶1 吴永科1 张虎1 刘全明1 李茹1，2 《中文研究》 2018年1期

摘要:

复杂网络中节点之间的连接强度会在很大程度上影响网络的社区结构，利用权重来刻画连接强度的差异性，并将其应用到社区发现研究中具有重要的意义。针对目前有权网络的社区发现方法存在的不足，该文结合节点的直接连边权重和基于共同邻居节点的连边权重，提出了一种改进的节点相关度度量准则。进一步基于这种改进的节点相关度度量准则和团体之间的聚集方法，构建了面向有权网络的社区发现模型。分别在有权值的科学家合作网络和全国列车网络数据集上进行了社区发现实验，结果表明了方法的有效性。

面向多类型问题的阅读理解方法研究下载：40 浏览：367

谭红叶1 屈保兴2 《当代中文学刊》 2020年10期

摘要:

机器阅读理解是基于给定文本,自动回答与文本内容相关的问题。针对此任务,学术界与工业界提出多个数据集与模型,促使阅读理解取得了一定的进步,但提出的模型大多只是针对某一类问题,不能满足现实世界问题多样性的需求。因此,该文针对阅读理解中问题类型多样性的解答展开研究,提出一种基于Bert的多任务阅读理解模型,利用注意力机制获得丰富的问题与篇章的表示,并对问题进行分类,然后将分类结果用于任务解答,实现问题的多样性解答。该文在中文公共阅读理解数据集CAIL2019-CJRC上对所提模型进行了实验,结果表明,系统取得了比所有基线模型都要好的效果。

阅读理解中观点类问题的扩展研究下载：47 浏览：336

张兆滨1 王素格1 陈鑫2 赵琳玲1 王典1 《当代中文学刊》 2020年9期

摘要:

在高考语文阅读理解中,观点类问题中的观点表达较为抽象,为了从阅读材料中获取与问题相关的答案信息,需要对问题中的抽象词语进行扩展,达到扩展观点类问题的目的。该文提出了基于多任务层级长短时记忆网络(Multi-HLSTM)的问题扩展建模方法。首先将阅读材料与问题进行交互注意,同时建模问题预测和答案预测两个任务,使模型对问题进一步扩展。最后将扩展后的问题与原问题同时应用于问题的答案候选句抽取中。通过在高考语文观点类的真题、模拟题以及DuReader的描述观点类数据集上进行实验,验证了本文的问题扩展模型对答案候选句的抽取性能具有一定的提升作用。

基于答案及其上下文信息的问题生成模型下载：30 浏览：300

谭红叶1 孙秀琴2 闫真1 《当代中文学刊》 2020年7期

摘要:

基于文本的问题生成是从给定的句子或段落中生成相关问题。目前,主要采用序列到序列的神经网络模型来研究包含答案的句子生成问题,然而这些方法存在以下问题:①生成的疑问词与答案类型不匹配;②问题与答案的相关性不强。该文提出一个基于答案及其上下文信息的问题生成模型。该模型首先根据答案与上下文信息的关系确定与答案类型匹配的疑问词;然后利用答案及其上下文信息确定问题相关词,使问题尽可能使用原文中的词;最后结合原句作为输入来生成问题。相关实验表明,该文提出的模型性能明显优于基线系统。

基于QU-NNs的阅读理解描述类问题的解答下载：49 浏览：399

谭红叶1,2 刘蓓1 王元龙1 《当代中文学刊》 2019年7期

摘要:

机器阅读理解是自然语言处理(NLP)领域的一个研究热点,目前大部分的研究是针对答案简短的问题,而具有长答案的问题,如描述类问题是现实世界无法避免的,因此有必要对该类问题进行研究。该文采用QU-NNs模型对阅读理解中描述类问题的解答进行了探索,其框架为嵌入层、编码层、交互层、预测层和答案后处理层。由于该类问题语义概括程度高,所以对问题的理解尤为重要,该文在模型的嵌入层和交互层中分别融入了问题类型和问题主题、问题焦点这三种问题特征,其中问题类型通过卷积神经网络进行识别,问题主题和问题焦点通过句法分析获得,同时采用启发式方法对答案中的噪音和冗余信息进行了识别。在相关数据集上对QU-NNs(Question UnderstandingNeural Networks)模型进行了实验,实验表明加入问题特征和删除无关信息可使结果提高2%～10%。

基于语言特征自动获取的反问句识别方法下载：35 浏览：323

李旸1 吴卓嘉1 王素格1 梁吉业2 《当代中文学刊》 2020年3期

摘要:

反问句是以疑问的形式表达强烈情感的修辞方式,对其有效识别可为自然语言处理中的情感分析任务提供技术支持。该文提出了一种基于语言特征自动获取的反问句识别方法。首先,利用标签注意机制,建立了一个数据驱动的特征抽取模型,用于获取与任务相关的词汇、句法结构、符号标记和话题等语言特征。其次,利用Bi-LSTM模型分别对句子和语言特征进行表示,两者的交互注意被用于获取句子的各个词和符号的注意力权重向量。该权重向量作用于句子的表示,用于构建一个强化语言特征的反问句识别模型。在中文微博数据集上的实验结果表明,提出的方法与之前的工作相比,反问句识别性能有显著提升。

融合反问特征的卷积神经网络的中文反问句识别下载：23 浏览：358

文治1 李旸1 王素格1,2 廖健1 陈鑫1 《当代中文学刊》 2019年2期

摘要:

反问是一种带有强烈情感色彩的表达方式,对其进行自动识别将提升隐式情感分析的整体效率。针对汉语反问句识别问题,该文分析了反问句的句式特点,将反问句的句式结构融入到卷积神级网络的构建中,提出一种融合句式结构的卷积神经网络的反问句识别方法。首先利用置信度大于70%的反问句的特征词、序列模式,对大规模未被标注的微博语料进行初步筛选,获取大量伪反问句。然后通过多个卷积核分别对句子的词向量和反问句的特征进行抽取,获取句子语义特征和反问词特征,将两者共同作用生成句子的表示。最后利用softmax分类器实现句子的分类。实验结果表明,利用该方法对微博中反问句的识别准确率、召回率和F1值分别达到了89.5%、84.2%和86.7%。

近邻感知的标签噪声过滤算法下载：44 浏览：360

姜高霞1 樊瑞宣1 王文剑1,2 《人工智能研究》 2020年12期

摘要:

基于k近邻的标签噪声过滤对近邻参数k的选取较敏感.针对此问题,文中提出近邻感知的标签噪声过滤算法,可有效解决二分类数据集的类内标签噪声的问题.算法分开考虑正类样本和负类样本,使分类问题中的标签噪声检测问题转化为两个单类别数据的离群点检测问题.首先通过近邻感知策略自动确定每个样本的个性化近邻参数,避免近邻参数敏感的问题.然后根据噪声因子将样本分为核心样本与非核心样本,并把非核心样本作为标签噪声候选集.最后结合候选样本的近邻标签信息,进行噪声的识别与过滤.实验表明,文中方法的噪声过滤效果和分类预测性能均较优.

基于识别关键样本点的非平衡数据核SVM算法下载：72 浏览：398

郭婷1 王杰1 刘全明1 梁吉业2 《人工智能研究》 2019年12期

摘要:

非平衡数据处理中常采用的欠采样方法很少考虑支持向量机(SVM)的特性,并且在原始空间进行采样会导致多数类样本部分关键信息的丢失.针对上述问题,文中提出基于识别关键样本点的非平衡数据核SVM算法.基于初始超平面有效划分多数类样本,在高维空间中对每个分块进行核异类近邻抽样,得到多数类中的关键样本点,使用关键样本点和少数类样本训练最终核SVM分类器.在多个数据集上的实验证明文中算法的可行性和有效性,特别是在非平衡度高于10∶1的数据集上,文中算法优势明显.

	在线客服
	客服电话：400-188-5008
	客服邮箱：service@ccnpub.com
	投诉举报：feedback@ccnpub.com

	在线客服：：点击联系客服
	联系电话：：400-188-5008
	客服邮箱：：service@ccnpub.com
	投诉举报：：feedback@ccnpub.com