[目的/意义]文献的向量表示是文献聚类的首要任务。共现潜在语义向量空间模型(CLSVSM)通过共现分析挖掘特征词对间的最大潜在语义信息对向量空间模型(VSM)进行了语义补充,与向量空间模型相比明显提高了中文文献的聚类性能。然而,对该模型的研究还有待深入:该模型对英文文献的聚类适用性尚需检验;是否可以考虑利用除max统计量以外的其它统计量构建模型?聚类效果又会如何?面对大量的文献数据,模型的维度往往较高,运算成本大,所以有必要对模型进行优化处理。[方法/过程]首先将CLSVSM用于对英文文献集(数据来源于Web of Science,简记为WOS)的主题聚类并与VSM的聚类结果进行比较;然后利用除max统计量以外的三个常用统计量min,ave,med构建相应的CLSVSM模型,并用这四个统计量构建的CLSVSM模型对中英文文献进行聚类比较。更重要的是,我们提出了截尾共现潜在语义向量空间模型(TCLSVSM)并检验其聚类性能。[结果/结论]实验显示:CLSVSM对英文文献聚类同样适用;四种统计量构建的模型中CLSVSM-max对中英文文献的聚类效果最佳;TCLSVSM不仅能保证聚类性能,而且能显著降低运算成本。