基于语义匹配的文本相似度计算方法的设计与研究
一、 毕业设计进展情况
写完开题报告后,我开始对题目进行理论分析与方法研究。
首先,深入学习了题目相关知识,其中包括:一些常用中文文本分词方
法,重点对中国科学院计算技术研究所的汉语分词系统ICTCLAS[18]进行了学习和研究;了解中文文本相似度计算主要算法及其优缺点,重点深入研究基于向量空间模型的TF-IDF方法;学习知网,研究他的结构与知识描述语言,了解基于知网的词汇语义相似度计算方法等。
其次,提出一种结合TF-IDF与基于知网的词汇语义相似度计算方法两种方法的计算方法 ,并提出部分改进方法,以提高中文文本相似度计算的准确性。
目前,我正在就提出的方法进行代码实现和实验验证。
一、 毕业设计工作中存在的问题及解决方案
以上提出算法中关键问题是怎样改进原方法且很好的结合两种方法。
提出的解决方案是,将输入的两个文本进行预处理与分词处理之后,输入两个待比较文本的特征向量词条组,在知网词汇语义相似度计算程序中得到两个词条组词语两两间相似度值,以文本格式输出,再解析上一步得到的文本得到所需要格式的相关数据,构成两个特征向量的词语相似度矩阵,再根据矩阵数据改进TF-IDF进行计算最后得到文本相似度值。
另外,为了提高效率,考虑在实现过程中进行特征向量的提取与降维,具体方法是用词频统计法计算词条向量的权重,加入一个评估参数进行提取与降维。此评估参数的值是经过实验得到的。
、下一步工作计划
答辩之前,需要继续完成代码实现和实验验证,并撰写论文。
实现和验证过程中,主要采用ICTCLAS系统为基础,结合前面提出的改进算法,给出中文文本相似度计算的系统实现过程,并对多组不同类型文本进行测试,验证提出的算法。
以上内容只是毕业设计作品的部分资料介绍,如果了解更多详情请联系客服QQ:57510459
购买帮助>>