网络科技信息结构化监测的思路和技术研究
陈孟楠
生成PDF 清样下载 引用

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

陈孟楠,. 网络科技信息结构化监测的思路和技术研究[J]. 信息通信与技术,2022.12. DOI:10.12721/ccn.2022.157164.
摘要:
一个国家在国际上的竞争很大程度上都是依靠科技,尤其是在具有战略性和指导性的领域这就需要我们能够准确、及时地掌握新的科技发展。本文旨在通过对互联网中大量的科技信息,进行结构化检测,进而获取网络科技信息的动态。
关键词: 网络科技信息结构化检测思路技术研究
DOI:10.12721/ccn.2022.157164
基金资助:

科学技术是第一生产力,伴随着各个国家之间进入白热化的竞争,科学技术的创新和应用成为确保国家能够续强盛、产业升级换代和国家经济不断增长的重要手段。但是在选择优先发展领域,把握和决策科技发展现状和趋势等,需要分析和技术评估,科技情报网络信息作为开源发布及时的信息整合地,也成了分析科技信息的重要资源,因此利用公开的网络技术对获取的相关信息进行检测和分析是必要手段。

一、对网络信息进行结构化检测的思路

网络上每天都会发布大量的信息,在这些海量的信息中,哪些才是需要科技人员重点关注的内容,一般包含了科研的项目、研究报告、研发资金等等,这些数据有可能是出自科研机构,政府科研院校等,怎样从海量的信息中检索出有用的信息,这就需要从监测内容通过一定的结构化标准进行筛选,并形成一定的标准文本。

二、对网络信息的自动获取与检索技术

(一)一般搜索的信息检索技术

一般搜索引擎是指在我们日常生活中接触最终的通用性的所有引擎,他所面对的是所有普通的网民,通过简单的输入关键词,就可以搜索到大量的有关该关键词的网页,一般是不添加筛选的搜索,这个在互联网上返回的新网页信息很多,在科技信息的获取上,一般需要采用更细致的根据性提取特殊词汇,尤其是中文分词的系统,在大量的网页中按照主题词的分类和编索引等进行抓取,然后根据匹配和返回的结果进行排序。

(二)目录检索系统

目录检索是通过机器或是人工发现信息,借助专业工作人员对网页进行识别,并在这个基础上,提供分类的目录检测系统,有一些网站的目录结构目标性比较强,所以比较准确,但是在目前快速膨胀的网络信息中,让很多目录检索中没有办法及时更新数据这个弊端不断显露出来【1】。因此目录检索需要借助人工或者是半人工在获取信息的过程中适当的介入,进而降低信息获取的盲目性,并且不断提高其准确性。

(三)元搜索引擎技术

元搜索引擎也可以称为组合引擎,多引擎的协同搜索等,元搜索引擎技术的原理是因为单一的搜索引擎涵盖率比较低,通常不超过16%,查全率以及覆盖率是非常有限的,然而多个搜索引擎的协同可以对提交的数据进行全网的查询,并标注来源,把重复的信息剔除掉并把最终结果返回给用户,对于这样复杂的要求就需要专门开发相关专业的系统来进行处理复杂的查询要求。

(四)主题搜索引擎

通常满足科技信息的查询理词汇一般专业性比较高、通用性比较低,这就导致了查询信息的准确率不高,而且返回的结果过于集中且大量,覆盖率不全、信息更新不及时的问题,因此需要进行专题搜索引擎系统,可以让他按照之前预定好的专题,进行有目的的搜索,还可以提前分析有可能的搜索范围,并找到相关度最高的链接,甚至我们还可以从一个起始连接自动搜索到专题信息的网页。

(五)智能信息检索代理技术

通常进行信息检索时很容易从互联网中返回很多没有用的信息,这对于我们想准确和高效的获取信息是一个很大的挑战。因此技术人员需要开发一种适用范围更广,更加智能、更高准确度的信息检索方法,并且系统还可以通过智能学习,帮助用户缩小搜索范围,明确检索信息。可以通过重要性排序策略和算法,自动获取符合搜索信息的文档,不断融合信息挖掘和信息检索技术,从而使网络科技信息的检索能够更加准确和高效。

三、网络科技信息来源的选取策略

每天网络上都会出现大量的信息,所以,对网络信息进行检测的第一步就是要确定全面、有效的信息源,这对获取信息是非常重要的。

(一)大型商用搜索引擎

目前网上很多商业搜索引擎的技术都比较先进,而且有广泛的覆盖面、辅助功能也比较多,返回机制也是智能化的,他们可以直接使用,而且还可以将它作为科技信息源,科技新闻等的信息定位系统,并且还可以使用多搜索的元搜索策略,进而提高检索的全面性,准确性和权威性。

(二)文献数据库

当前很多的期刊和论文收录网站,收录了很多的期刊炉温的信息,他们具有信息来源广泛、更新速度快、资料跨年限时间长、功能强大以及可追溯来源等优点。比如较权威的检索系统:工程索引、科学引文索引、科学文摘。中国的知网、北大核心等,他们收录的文章质量很高,且更新速度快,具有国际影响力,相对是比较权威的。

(三)专利数据库

专利数据库我们可以选择国内知识产权局的数据库以及国外的国家专利数据库,他们收集的数据时间跨度较长,且专利数据信息最全面。

(四)目录检索系统

目录检索系统中的信息比较集中,而且有较强的规范性,适合成为搜索源,目录检索可以按照已经分好的专题目录作为检索入口,然后对信息进行深度优化,返回给所有符合条件的网址,所有目录检索系统中比较专业和准确的有YAHOO目录检索系统。

(五)其他专业信息源

目前有很多的科研机构和协会都有自己的官方网站,在网站上发布一些相关的信息和科研进展等,可以作为该领域的信息源,并且在这个领域的工作人员也会保存一些有价值的信息,比如个人主页的文章,参加的学术会议,技术报告等,这些都可以成为有价值的信息来源。

结束语:

综上所述,网络科技信息的检测是长期系统的工作,并且随着开发出更智能的监测算法和获取软件。这就需要结合技术检测的内容和目标等进行更全面的数据挖掘,可以在新技术的条件下为技术创新管理提供保障,为科研提供依据,能够准确把握科技未来发展的趋势,进而提高决策的准确性。

参考文献:

[1]张智雄,张晓林,刘建华,等.网络科技信息结构化监测的思路和技术方法实现[J].中国图书馆学报,2014(4):4-15.

》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。