文本内容的关键词语标引是文本信息处理中的关键问题。以往的关键词语提取是完全靠人工完成的。随着信息技术的发展,特别是自然语言处理领域中的突破性进展,从文本信息中全自动提取具有代表性的关键词语成为可能,从而为计算机有效组织与管理海量文本提供了技术保障。可见关键词语是用来表示文档主题含义的重要颗粒,当这种颗粒被拿来用作文本特征参与运算时,其计算量很小且便于快速处理。从国内外研究状况来看,关键词语提取与文本自动分类技术本身还存在着诸多难题[1],例如如何提高所获取关键词语的正确性和分类结果的精度,如何消除噪声对关键词语提取的影响,如何有效地降低分类计算复杂度,如何用更少的关键词语来表示文本等。虽然国内外学者们在英语和汉语文本关键词语提取和文本倾向性分析方面已开展了较长时间的研究工作[2-9]且已取得了很好的研究结果,但是国内少数民族语言,特别是维吾尔语文本信息处理方面的研究起步较晚,还未形成一定的规模,也没有公开的用于文本分类的通用文本数据资源。文[10]和[11]研究了基于区分性关键词语提取方法,并成功应用在了维吾尔文文本分类中,分类准确度较高。但是,该方法是在高维数据集上进行的,具有一定局限性。因此,本文尝试使用在生物技术领域中常见的稀疏判别分析 (sparse discriminant analysis,SDA) 方法。该方法在少量数据集上实现了比较好的文本情感分类效果。为了在更少量数据集上进一步提高文本情感分类正确率,本文进一步研究了基于稀疏支持向量机 (sparse support vector machine,Sparse SVM) 的关键词提取方法。实验结果表明该方法切实有效且可靠。
1 关键词提取方法本文研究了3种不同的关键词提取方法,下面分别进行介绍。
1.1 基于TextRank的关键词提取方法本文提出的基于TextRank的关键词语提取方法流程是:首先对文本进行必要的预处理,用词频 (term frequency, TF) 和词频—倒文档频率 (term frequency-inverse document frequency,TF-IDF) 来计算文档集中的词语权重,取权重值较大的词语为候选关键词,再根据其语义关系建立模型,然后进行递归计算至收敛为止,最后生成关键词序列[12]。
1.2 基于SDA的关键词提取方法SDA [13]利用稀疏表示方法来重构样本,包含局部几何信息,这有利于降低算法的计算复杂度,属于线性方法,也可以被拓展到非线性空间。
本文提出的基于SDA的关键词语提取方法流程是:首先从词语集中选出1 000个词,单独计算每个词语的权重,从中筛选权重值大于零的10~100个词,以使目标函数最小且准确率最高为条件对其进行分类能力测试,最后提取所有满足上述条件的词语为所需要的关键词语。
1.3 基于Sparse SVM的关键词提取方法Sparse SVM[14]主要考虑离最优分类面最近的样本,因为这些样本最有可能与第二类样本混在一起,影响分类效果,使得分类准确率降低。离最优分类面较远的样本已经属于特定的类,这些样本与另一类样本混在一起影响分类效果的可能性较低。所以Sparse SVM主要考虑离最优分类面最近的,影响力最大的样本。因此,本文运用Sparse SVM,与SVM不同,Sparse SVM只用一些有代表性的Sparse值。
2 实验设计与结果分析 2.1 数据收集与整理维吾尔语文本情感倾向性分析领域还未出现公开的标准数据集,因此本文通过小说和演员台词中筛选录入、网站下载等诸多方式收集了用于训练和测试的维吾尔语情感文本,并分成了2个数据集:数据集A包括生气类和非生气类文本各360句 (其中非生气类文本包括高兴、难过、惊讶等情感);数据集B包括高兴类和非高兴类文本各260句 (其中非高兴类文本包括生气、难过、惊讶等情感)[15]。本文随机选择这些文本句子中的70%作为训练样本进行关键词提取和SVM模型训练,另有10%的文本句子用来调节模型参数,最后20%用作测试样本,用以测试所选关键词的分类能力。本文使用LIBSVM工具包进行模型训练和测试。
2.2 实验结果与分析 2.2.1 基于TextRank的关键词提取方法实验结果本实验中,分别用TF和TF/IDF来计算文档集中的词语权重,分别提取在10~100之间的5组词表,对其进行分类能力测试。分别在数据集A和数据集B上进行情感分类,结果见表 1。
数据集 | 特征 | 分类效果% | |||||
关键词数 | 10 | 30 | 50 | 80 | 100 | ||
A | TF | 73.57 | 72.14 | 72.14 | 75.00 | 75.00 | |
TF/IDF | 71.42 | 77.85 | 72.85 | 70.71 | 72.85 | ||
B | TF | 88.00 | 93.00 | 89.00 | 92.00 | 94.00 | |
TF/IDF | 85.00 | 90.00 | 91.00 | 90.00 | 91.00 |
可以看出,针对数据集A, 关键词数分别在80(选用TF特征) 和30(选用TF/IDF特征) 时就出现准确率为最高的分类效果。但是,当关键词数超过80或30时,分类性能变得不稳定,甚至有所下降, 这说明再增加关键词数对分类结果无明显的贡献,证实了基于关键词而非全词表进行建模的必要性。针对数据集B,关键词数分别在100(选用TF特征) 和50(选用TF/IDF特征) 时出现准确率为最高的分类效果。同样,再增加关键词数量对分类结果无明显的贡献, 但是无论选用TF或TF/IDF特征,情感分类准确率都随关键词个数的增加而有所增加,这就验证了本文提出的基于TextRank的关键词提取方法在情感分类任务上具有一定的优势。
2.2.2 基于SDA的关键词提取方法在实验中,本文同样选用TF和TF/IDF特征来计算文档集中的词语权重,用SDA方法分别提取权重值大于零的词数在10~100之间的10组词表,对其进行分类能力测试。在数据集A和数据集B上进行情感分类,结果见表 2。
数据集 | 特征 | 分类效果/% | ||||||||||
关键词数 | 10 | 20 | 30 | 40 | 50 | 60 | 70 | 80 | 90 | 100 | ||
A | TF | 69.28 | 72.85 | 76.42 | 71.42 | 74.28 | 75.00 | 72.14 | 72.14 | 75.00 | 74.28 | |
TF-IDF | 70.71 | 72.85 | 73.57 | 72.14 | 72.14 | 74.28 | 76.42 | 74.28 | 74.28 | 75.00 | ||
B | TF | 86.00 | 89.00 | 88.00 | 89.00 | 89.00 | 89.00 | 90.00 | 88.00 | 88.00 | 90.00 | |
TF-IDF | 88.00 | 89.00 | 87.00 | 86.00 | 85.00 | 85.00 | 90.00 | 90.00 | 90.00 | 92.00 |
可以看出,针对数据集A,关键词数为30时 (选用TF特征),情感分类准确率达到了最高值。当关键词数超过30时,分类性能变得不稳定,准确率有所下降。随着关键词数的增加,分类准确率也有所增加,关键词数为70时 (选用TF/IDF特征) 达到了最高情感分类准确率;针对数据集B,关键词数分别为70(选用TF特征) 和100(选用TF/IDF特征) 时,虽然出现了最高的分类准确率,但是从整体来看,分类效果不随关键词数增加而增加,与数据集A的分类结果相比显得不稳定。这可能是因为数据集B中的文本个数比数据集A更少,产生了过训练问题。不过,与基于TextRank的实验结果类似,基于SDA的情感分类实验结果也证实了基于关键词而非全词表进行建模的重要性和可行性。
2.2.3 基于Sparse SVM的关键词提取方法基于SDA的关键词提取方法在少量数据集上达到了相当高的分类准确率,但该方法是用SDA来取关键词语, 用SVM来训练模型。本文进一步提出了用Sparse SVM来提取关键词,用SVM来训练模型的方法。该方法首先计算1 000个词的权重,根据权重进行排序,从中得到权重最大的10到100个关键词,共分10个数据集,最后分别对其进行分类能力测试。分别在数据集A和B上进行情感分类,结果见表 3。
数据集 | 分类效果/% | ||||||||||
关键词数 | 10 | 20 | 30 | 40 | 50 | 60 | 70 | 80 | 90 | 100 | |
A | 74.28 | 72.85 | 72.85 | 72.14 | 72.14 | 70.71 | 70.71 | 69.28 | 70.00 | 70.00 | |
B | 91.00 | 93.00 | 93.00 | 92.00 | 92.00 | 91.00 | 91.00 | 90.00 | 89.00 | 91.00 |
可以看出,Sparse SVM确实在少量词语集 (针对数据集A所选关键词语数量仅为10个,针对数据集B关键词语数量仅为20个) 上达到了比SDA更高的文档分类准确率,实现了同样的准则提取关键词和模型训练,用少量数据集达到最高分类准确率的目的。同时,验证了本文引用的关键词自动提取方法是有效可行的。
3 结论本文分别研究了基于TextRank、SDA和Sparse SVM这3种不同的关键词自动提取方法,并将其应用在了文本情感分类中。实验结果表明:这3种方法依次降低了关键词语数量,但是依次不断提高了情感分类效果,从而验证了用少量关键词集进行文本情感表示的必要性和可能性。
[1] | 谢晋. 基于词跨度的中文文本关键词提取及在文本分类中的应用[D]. 杭州: 浙江工业大学, 2011. XIE Jin. Chinese Keyword Extraction Method Based on Word Span and Its Application in Text Classification[D]. Hangzhou:Zhejiang University of Technology, 2011. (in Chinese) |
[2] | 张彦博. 文本情感分类的研究[D]. 北京: 北京交通大学, 2010. ZHANG Yanbo. Research of Text Sentiment Classification[D]. Beijing:Beijing Jiaotong University, 2010. (in Chinese) |
[3] | 李寿山. 情感文本分类方法研究[D]. 北京: 中国科学院自动化研究所, 2008. LI Shoushan. Research on Sentiment Classification Method[D]. Beijing:Institute of Automation, Chinese Academy of Sciences, 2008. (in Chinese) |
[4] | 杨鼎, 阳爱民. 一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J]. 计算机应用研究, 2010, 27(10): 3737–3743. YANG Ding, YANG Aimin. Classification approach of Chinese texts sentiment based on semantic lexicon and naive Bayesian[J]. Application Research of Computers, 2010, 27(10): 3737–3743. (in Chinese) |
[5] | 潘文彬. 基于情感词词典的中文句子情感倾向性分析[D]. 北京: 北京邮电大学, 2011. PAN Wenbin. The Sentimental Orientation Analysis of Sentence Based on Sentiment Dictionary[D]. Beijing:Beijing University of Posts and Telecommunications, 2011. (in Chinese) |
[6] | 张靖, 金浩. 汉语词语情感倾向自动判断研究[J]. 计算机工程, 2010, 36(23): 194–196. ZHANG Jing, JIN Hao. Study on Chinese word sentiment polarity automatic estimation[J]. Computer Engineering, 2010, 36(23): 194–196. (in Chinese) |
[7] | 黄俊, 田生伟, 禹龙, 等. 基于维吾尔语情感词的句子情感分析[J]. 计算机工程, 2012, 38(9): 183–185. HUANG Jun, TIAN Shengwei, YU Long, et al. Sentence sentiment analysis based on Uyghur sentiment word[J]. Computer Engineering, 2012, 38(9): 183–185. (in Chinese) |
[8] | 禹龙, 田生伟, 冯冠军. 维吾尔语情感词汇自动识别[J]. 计算机工程, 2011, 37(7): 213–215. YU Long, TIAN Shengwei, FENG Guanjun. Automatic recognition of Uyghur emotional words[J]. Computer Engineering, 2011, 37(7): 213–215. (in Chinese) |
[9] | LI Juanzi, FAN Qi'na, ZHANG Kuo. Keyword extraction based on tf/idf for Chinese news document[J]. Wuhan University Journal of Natural Sciences, 2007, 5: 917–921. |
[10] | 祖丽湖玛尔·马木提江. 维吾尔语区分性关键词提取应用软件开发及其性能分析[D]. 乌鲁木齐: 新疆大学, 2013. Mamut Zulhumar. Research on Uyghur Discriminative Keyword Extraction Algorithm and Its Performance Analysis[D]. Urumqi:Xinjiang University, 2013. (in Chinese) |
[11] | 热依莱木·帕尔哈提, 孟祥涛, 艾斯卡尔·艾木都拉. 基于区分性关键词模型的维吾尔语文本情感分类[J]. 计算机工程, 2014, 40(10): 132–136, 142. Rayila Parhat, MENG Xiangtao, Askar Hamdulla. Uyghur text sentiment classification based on discriminative keyword model[J]. Computer Engineering, 2014, 40(10): 132–136, 142. (in Chinese) |
[12] | Mihalcea R, Tarau P. TextRank:Bringing order into texts[C]//Empirical Methods in Natural Language Processing 2004. Barcelona, Spain, 2004:404-410. |
[13] | 陈小冬, 林焕祥. 稀疏判别分析[J]. 计算机应用, 2012, 32(4): 1017–1021. CHEN Xiaodong, LIN Huanxiang. Sparse discriminant analysis[J]. Journal of Computer Applications, 2012, 32(4): 1017–1021. (in Chinese) |
[14] | Bi J, Bennett K, Embrechts M, et al. Dimensionality reduction via sparse support vector machines[J]. Journal of Machine Learning Research, 2003, 3(3): 1229–1243. |
[15] | 热依莱木·帕尔哈提. 文本关键词提取技术及其应用研究[D]. 乌鲁木齐: 新疆大学, 2014. Rayila Parhat. The Effective Text Keyword Extraction Technologies and Their Applications[D]. Urumqi:Xinjiang University, 2014. (in Chinese) |