摘要:
该文从鲁迅书信、小说和杂文中提取出376个语言特征,采用随机森林和k-means聚类算法筛选出58个能够对三种文体取得较好区别效果的特征。该文采用比伯的多维度分析法对这些语言特征进行因子分析,得到7个比较重要的因子。根据每个因子中具有显著负荷值的语言特征,该文将7个因子解释为4个能够体现文体在写作角度、叙述视角、形式、语言系统等方面差异的维度,以及3个能够体现文体存在某种特点的特征组合。书信和小说在互动性上相似,然而书信更具议论性、文言性和详细的写作特征,小说更具描写性、白话性和简短的写作特征;书信和杂文在议论性和详细的写作特征上相似,而书信互动性较强,杂文互动性较弱;小说和杂文则没有相似的维度。