请选择 目标期刊

基于密度及文本特征的新闻标题抽取算法 下载:53 浏览:307

彭圳生1,2 巩青歌1 高志强1,2 段妍羽1 曾子贤1 《中文研究》 2018年8期

摘要:
为从大量的复杂非规范网页结构中自动抽取出新闻标题,该文提出一种基于密度和文本特征的新闻标题抽取算法(title extraction with density and text-features,TEDT)。主要通过融合网页文本密度分布和语言特征的语料判定模型,将网页划分为语料区和标题候选区,选取语料后通过TextRank算法计算对应的key-value权重集合,最后采用改进的相似度计算方法从标题候选区抽取新闻标题。该算法能有效划分语料和标题区域,降低网页噪声干扰,准确抽取出新闻标题。实验结果表明,TEDT的准确率和召回率均优于传统的基于规则和相似度的新闻标题抽取算法,证明了TEDT不仅对主流新闻网站有效,而且对复杂非规范网页也广泛适用。

基于统计和词典方法相结合的韩汉双语语料库名词短语对齐 下载:61 浏览:405

凌天斌 毕玉德 《中文研究》 2018年3期

摘要:
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。

基于RNN和CNN的蒙汉神经机器翻译研究 下载:62 浏览:431

包乌格德勒1,2 赵小兵2 《中文研究》 2018年2期

摘要:
该文探讨了基于RNN和CNN的蒙汉神经机器翻译模型,分别采用蒙古语的词模型、切分模型和子词模型作为翻译系统的输入信号,并与传统的基于短语的SMT进行了比较分析。实验结果表明,子词模型可以有效地提高RNN NMT和CNN NMT的翻译质量。同时实验结果也表明,基于RNN的蒙汉NMT模型的翻译性能已经超过传统的基于短语的蒙汉SMT模型。

基于门控循环神经网络词性标注的蒙汉机器翻译研究 下载:68 浏览:444

刘婉婉 苏依拉乌尼尔仁庆道尔吉 《中文研究》 2018年2期

摘要:
统计机器翻译可以通过统计方法预测出目标词,但没有充分理解原文语义关系,因而得到的译文质量不高。针对该问题,利用一种基于门控单元循环神经网络结构来对蒙汉神经机器翻译系统进行建模,引入注意力机制来获取双语词语的对齐信息,并在构建字典过程中对双语词语进行词性标注来强化语义,以此来缓解因欠训练导致的错译问题。实验结果表明,与RNN的基准系统和传统的统计机器翻译方法相比,该方法 BLEU值得到一定的提升。

基于Bi-tagged特征的维吾尔文情感分类方法研究 下载:55 浏览:415

热西旦木·吐尔洪太1,2 吾守尔·斯拉木1 《中文研究》 2018年2期

摘要:
现有的维吾尔文文本情感分类方法以从空格分词中得到的unigram特征作为文本表示,因而无法挖掘与情感表达相关的深层语言现象。该文从维吾尔文词汇之间的顺序依赖关系入手,总结若干个词性组合规则,提取能够表达丰富情感信息的Bi-tagged特征,并基于支持向量机(SVM)分类器对维吾尔文情感语料库进行了正负情感分类。实验结果表明,在维吾尔文文本情感分类中:(1)当包含该文提出的各项词性规则时,Bi-tagged特征的性能最优;(2)Bi-tagged特征不仅能够提取情感丰富的信息,而且可以提取否定信息;(3)与常用的unigram、bigram特征以及unigram和bigram的组合特征在该文数据集上的分类效果相比,该文所提取的Bi-tagged与unigram的组合特征分类效果更佳,比该文的Baseline的分类准确率提高了4.225%。该研究成果不但可以进一步提高维吾尔文文本情感分类效率,也可为哈萨克语、柯尔克孜语等亲属语言的情感分类提供借鉴。

传播源估计中有效观察点部署策略研究 下载:82 浏览:477

刘栋1,2 赵婧1 聂豪1 《中文研究》 2018年1期

摘要:
谣言或疾病的扩散均可模拟为传播源在网络中的传播,如何在网络中估计传播源位置是一项具有挑战性的任务。该任务往往根据部分观察点推断传播源的位置,故如何有效的选择观察点对准确定位传播源位置至关重要。该文分析了随机、度、聚类系数、特征向量、紧密度以及介数等观察点部署策略对传染源估计的影响。在实验中,采用SI传播模型和反向贪心算法估计传播源在三类合成网络和四个真实网络进行模拟仿真,实验结果表明采用特征向量的观察点部署策略更有利于提高传播源估计的精度。

论生产方式变迁与职业教育实习演变 下载:66 浏览:405

祝成林 《中国职业教育》 2019年2期

摘要:
不同的生产方式对从业者知识与技能的要求不尽相同,并影响到职业教育实习形态的演变。手工生产方式决定了实习的技艺型学徒的基本形态,大量生产方式促进了规范型实习发展,精益生产方式要求职业教育开展多样型实习,而定制生产方式则带来了创新型实习。创新型职业教育实习不同于以技能训练、知识应用为主体的为工作而准备的实习,而是培养具备够用的专业知识、扎实的技术技能和较强的创新意识,在工作岗位上不断钻研、创新,提升个人岗位价值的人才的新型实习。

巴黎高等物理化学学院的精英人才培养模式与物理类课程设计 下载:86 浏览:297

方恺1 张冶文2 LEGRAND André Pierre3 《物理进展》 2020年7期

摘要:
巴黎高等物理化学学院是法国培养物理、化学和生物学专业研究型精英人才的高等学府,并因居里夫妇等多位获得诺贝尔奖的著名科学家曾工作于此而闻名于世。本文介绍了巴黎高等物理化学学院的发展历程与科学文化的传承,理工结合的课程设计与精英人才培养模式,及其理论与实验并重、跨学科、小规模和高质量的办学特色。在新工科建设人才培养模式的探索与改革中,高校要突破原来的学科界限与产业划分,培养跨学科的创新型人才。巴黎高等物理化学学院的优质教育资源、先进的工程教育理念、特色的课程体系和教学方法,对培养创新工程人才具有启示意义。

基于机器学习的细粒度空气质量时间预测器 下载:63 浏览:493

曹鑫磊 冯锋 《中国环境保护》 2020年6期

摘要:
针对空气质量状况的预防和治理,提出了基于线性回归的空气质量预测方法。作为时间预测器,更多的是考虑本地的历史数据、过去与未来的状况,挖掘空气质量随时间变化的关系以及变化趋势,为了选取最优的特征,对数据进行分析,找到与空气质量变化关系密切且存在线性关系的特征,以此特征来建立线性回归模型,并使用Cross-Validation方法进行评估验证。实验结果表明线性回归方法能够有效地预测到空气质量的变化趋势,效果良好,具有较强的实用性。

玻尔氢原子模型中德布罗意波的最概然解释 下载:68 浏览:281

雷勇 《物理进展》 2020年10期

摘要:
本文用量子力学理论分析了德布罗意对玻尔氢原子模型量子化条件的解释,发现玻尔氢原子模型中各个能级的德布罗意波长实质上是量子态的径向函数Rn(n-1)(r)对应的最概然德布罗意波长。

应用有限元法分析采油树受力状况及承载能力 下载:60 浏览:399

王兰文1 盛选禹2 《中国机械研究》 2019年9期

摘要:
应用有限元法分析采油树受力状况及承载能力,开展了采油树整体模型和局部模型结构应力的数值分析,并对采油树应力集中部位进行应力评价。分析结果表明:采油树整体模型最大应力满足要求,且油管头四通、节流阀结构强度满足要求。对采油树整体模型应力集中部位进行应力线性化,依据ASME规范中的应力评价准则,得出应力线性化结果满足强度要求。因此采油树整体结构具有足够的强度,满足结构安全性能要求。该研究为采油树的结构优化提供了理论支持。

基于太赫兹时域光谱技术的面粉品质快速无损检测研究 下载:86 浏览:501

刘翠玲 徐莹莹 孙晓荣 邢瑞芯 《中国食品与营养》 2019年2期

摘要:
太赫兹(THz)波能够穿透大多数干的介电材料(塑料、陶瓷、衣物等),可实现对带包装物品的质量检测。为了研究THz光谱技术对带包装面粉的无损检测,首先对不带包装面粉进行太赫兹时域谱可行性分析及建模研究。对101份不同种类的面粉样本,用Tera Pulse 4000的太赫兹脉冲光谱仪采集了其太赫兹时域谱,对光谱预处理后,用偏最小二乘法(PLS)算法建立了面粉中3个指标水分、灰分、面筋的定量分析模型。各模型的预测相关系数都在0.89以上,研究结果表明,通过太赫兹时域光谱技术对面粉品质进行无损、快速检测具有可行性,对下一步太赫兹光谱技术直接对带包装的面粉进行检测研究奠定了坚实的基础。

基于知识可视化的物理实验课程导学教学设计研究 下载:71 浏览:313

张慧 姚琴芬 《物理进展》 2020年5期

摘要:
知识可视化在教育技术实践领域有广泛的研究和应用,本文的研究重点是通过知识可视化的思维模型,应用相关软件技术工具Mindmanager和Xmind,构建和优化大学物理实验课程的导学和内容设计,同时结合科学数据可视化软件Mathematica辅助实验数据的可视化呈现和处理分析,并进行了相关案例设计研究探索。本文研究工作的目的是通过可视化的导学资源组织形式和内容,提升实验教学信息传达的结构性、丰富性和有效性,辅助学生利用思维和数据可视化工具增强学习与思维的能力。

面向医疗文本的实体及关系标注平台的构建及应用 下载:38 浏览:290

张坤丽1 赵旭2 关同峰1 尚柏羽2 李羽蒙1 昝红英1 《当代中文学刊》 2020年10期

摘要:
医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标注方法费力费时,已难以适应大数据发展的需求。该文以构建中文医学知识图谱的任务为驱动,构建了半自动化实体及关系标注平台。该平台融合多种算法,能够实现文本预标注、进度控制、质量把控和数据分析等多种功能。利用该平台,进行了医学知识图谱中实体和关系标注,结果表明该平台能够在文本资源建设中控制标注过程,保证标注质量,提高标注效率。同时该平台也被应用于其他文本标注任务,表明该平台具有较好的任务移植性。

用于文本分类的均值原型网络 下载:34 浏览:362

线岩团1 相艳2 余正涛1 文永华1王红斌2 张亚飞1 《当代中文学刊》 2020年10期

摘要:
文本分类是自然语言处理的基本任务之一。该文在原型网络基础上,提出了按时序移动平均方式集成历史原型向量的均值原型网络,并将均值原型网络与循环神经网络相结合,提出了一种新的文本分类模型。该模型利用单层循环神经网络学习文本的向量表示,通过均值原型网络学习文本类别的向量表示,并利用文本向量与原型向量的距离训练模型并预测文本类别。与己有的神经网络文本分类方法相比,模型在训练和预测过程中有效利用了样本间的特征相似关系,并具有网络深度浅、参数少的特点。该方法在多个公开的文本分类数据集上取得了最好的分类准确率。

面向儿科疾病的命名实体及实体关系标注语料库构建及应用 下载:28 浏览:324

昝红英1 刘涛2 牛常勇1 赵悦淑2 张坤丽3 穗志方4 《当代中文学刊》 2020年9期

摘要:
当前医学语料库实体及实体关系的分类体系难以满足精准医学发展需求的问题,该文针对儿科疾病开展研究。在医学领域专家的指导下制定了适合儿科学的命名实体和实体关系的标注体系及详细标注规范;融合国内外相关医学标准资源,利用标注工具对298余万字儿科医学文本中实体及实体关系进行机器预标注、人工标注及人工校对,构建了面向儿科疾病的医学实体及关系语料库。所构建的语料库包含504种儿科常见疾病,共标注命名实体23 603个,实体关系36 513个,多轮标注一致性分别为0.85和0.82。基于该语料库构建了儿科医学知识图谱,并开发了基于知识图谱的儿科医学知识问答系统。

赖欣巴赫共因原理的哲学辨析 下载:62 浏览:426

梁栋 《哲学研究进展》 2019年1期

摘要:
追问事件因果性与事件相关性之间的关系,这一直是当代因果论、物理学哲学和统计学哲学的一个核心论题。大多哲学家认为,赖欣巴赫的共因原理与因果马尔科夫条件不是普遍有效的,它们具有同样的局限性,尽管后者比前者更具一般性。针对这些争议,布达佩斯学派坚持回归本源。他们相信,在共因不完备的概率空间拓展中,总能发现事件相关的共因。问题是,他们的整个纲领目前还只是一种形式化理论,其结论在很多情形下是本体论惰性的,不能充分保证事件相关之共因存在的实在性。

基于案件要素指导的涉案舆情新闻文本摘要方法 下载:34 浏览:314

韩鹏宇1 高盛祥2 余正涛1 黄于欣2 郭军军1 《当代中文学刊》 2020年8期

摘要:
涉案舆情新闻文本摘要任务是从涉及特定案件的舆情新闻文本中,获取重要信息作为其简短摘要,因此对于相关人员快速掌控舆情态势具有重要作用。涉案舆情新闻文本摘要相比开放域文本摘要任务,通常涉及特定的案件要素,这些要素对摘要生成过程有重要的指导作用。因此,该文结合深度学习框架,提出了一种融入案件要素的涉案舆情新闻文本摘要方法。首先构建涉案舆情新闻摘要数据集并定义相关案件要素,然后通过注意力机制将案件要素信息融入新闻文本的词、句子双层编码过程中,生成带有案件要素信息的新闻文本表征,最后利用多特征分类层对句子进行分类。为了验证算法有效性,在构造的涉案舆情新闻摘要数据集上进行实验。实验结果表明,该方法相比基准模型取得了更好的效果,具有有效性和先进性。

日本工匠精神的产生及其历史演变 下载:49 浏览:378

朱琴 刘培峰 《中国社会科学学报》 2019年1期

摘要:
日本古代匠人虔诚的神佛信仰、特殊的等级身份、严格的技术等级制度、优厚的社会待遇是日本工匠精神的肇因,而中世时期行业团体的出现、丰厚的经济回报以及战国大名的重视则成为古代工匠精神进一步强化的外在动力。近世以来,町人伦理逐渐内化为工匠精神的重要内核,家业传承制度进一步强化了工匠精神。近现代的会社制沿袭了家业传承的存续特点,吸取并发扬了近世工匠精神,成为日本制造的品质保证。

融合BERT语境词向量的译文质量估计方法研究 下载:33 浏览:326

李培芸 李茂西 裘白莲 王明文 《当代中文学刊》 2020年6期

摘要:
蕴含语义、句法和上下文信息的语境词向量作为一种动态的预训练词向量,在自然语言处理的下游任务中有着广泛应用。然而,在机器译文质量估计中,没有相关研究工作涉及语境词向量。该文提出利用堆叠双向长短时记忆网络将BERT语境词向量引入神经译文质量估计中,并通过网络并联的方式与传统的译文质量向量相融合。在CWMT18译文质量估计评测任务数据集上的实验结果表明,融合中上层的BERT语境词向量均显著提高了译文质量估计与人工评价的相关性,并且当对BERT语境词向量的最后4层表示平均池化后引入译文质量估计中对系统性能的提高幅度最大。实验分析进一步揭示了融合语境词向量的方法能利用译文的流利度特征来提高翻译质量估计的效果。
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享