摘要:
该文提出一种"基于高频词等级相关度的方法"来探析存疑文献的作者信息,把各份语料中的词型均按照出现频次递减排列并确定等级,然后通过计算出语料之间高频词等级的相关度,来推断语料之间语言风格的相似度,并且把这种方法与"基于词型共现率的方法"和"基于词例共现率的方法"相比较。把《红楼梦》的120回均分为12份语料,使用"基于高频词等级相关度的方法"计算这12份语料两两之间的相关度。研究发现《红楼梦》的前8份语料两两之间相关度高,后4份语料两两之间相关度也高,而前8份语料与后4份语料这两部分语料之间相关度低。推断《红楼梦》前80回应是同一人所写,后40回应是另一人所写。