求用Termcapital contributionn特征选择的文本挖掘相关论文

 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
基于LDA特征选择的文本聚类
下载积分:500
内容提示:基于LDA特征选择的文本聚类
文档格式:PDF|
浏览次数:76|
上传日期: 16:25:48|
文档星级:
该用户还上传了这些文档
基于LDA特征选择的文本聚类
官方公共微信扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
用于文本分类和文本聚类的特征选择和特征抽取方法的研究
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口文本分类中特征选择技术的研究--《国防科学技术大学》2009年博士论文
文本分类中特征选择技术的研究
【摘要】:
随着信息技术的发展,基于在线文本和电子文本的应用得到广泛普及,包括网络新闻检索、基于内容的垃圾邮件过滤、论坛舆情分析和博客话题发现等在内的多个领域已与人们的生活密不可分。为了有效地管理和利用文本信息,基于文本内容的分类逐渐成为备受关注的领域。而文本数据的高维性可能导致低效的计算,因此降维是文本分类过程中不可或缺的环节,已成为重点研究的技术。
特征选择是数据挖掘和模式识别等领域中一项重要的预处理步骤,通过删除与学习目标无关的特征、冗余特征或噪声特征,达到降维的目的。由于监督信息(类别信息)是文本分类的重要组成部分,文本分类所具有的类别关系复杂、类别分布不平衡、标注瓶颈和类别不确定等特点,为特征选择研究提出了更多的挑战。
本文以文本分类为背景,以特征选择为研究内容,围绕文本分类面临的主要挑战,重点关注具体应用中不同的监督信息(类别信息),展开了对有监督学习模式下的层次化特征选择算法和半监督学习模式下特征选择算法的研究,并提出了一种适用于多种监督学习模式的特征选择方法,最后探讨了当监督信息不确定时选择特征的过程。主要研究成果包括:
(1)在有监督学习模式下,针对由复杂的类别关系带来的问题,假设文本的类别由类树结构进行组织,提出了层次化文本分类中的特征选择算法FSRRH。设计了在不同层次上抽取训练集的方法,以解决类别分布不平衡的问题;采用标准化处理的信息增益方法,选择预测能力不同的特征子集;最后对传统的近似Markov毯进行改进,以支持在特征子集之间去除冗余特征的功能。实验结果表明,与平铺的方法以及其它层次化特征选择方法相比,在高维文本集中,算法FSRRH对分类性能有着较为显著的提高,减轻了不平衡的类别分布对特征选择的影响。
(2)在半监督学习模式下,针对文本分类中的“标注瓶颈”问题,提出一种半监督特征选择算法SFRSC。利用少量已标注(labeled)样本的同时兼顾大量的未标注(unlabeled)样本,基于相关集准则理论,有效判断扩展类标号的方向和范围。同时设计了综合计算类簇自相关度和类簇间离散度的复合标准,并以此评价特征。在真实数据集上的实验表明,与其它两个基准算法相比,SFRSC更能充分利用样本所携带的信息,具有良好的性能和可扩展性。
(3)在文本分类应用中,针对监督信息不同而导致需要重新设计特征选择算法的问题,从核方法的角度,详细地分析了有监督、半监督、无监督学习模式下特征选择间的一种内在联系,基于HSIC依赖性准则,提出一种可适用于多种监督学习模式的特征选择方法FSM_HSIC。通过核函数将(低维空间中的)非线性相关性映射为(高维空间中的)线性相关性,设计了Gram矩阵的不同构造方式,以支持方法FSM_HSIC在不同的监督学习模式下实例化为具体的算法。基于该方法,从核的角度对现有算法SPEC进行解释,并给出理论证明;同时基于该方法,设计了一种交互特征选择算法FSI。在仿真数据集和真实数据集上的实验表明,与若干基准算法和交互特征选择算法相比,算法FSI可以更有效地选出交互特征,并具有更好的稳定性和更快的收敛性。综上所述,该方法并不能囊括所有的算法,但具有重要的实用价值。
(4)上述研究成果均是基于精确数据,针对监督信息不确定的问题,提出了特征选择算法FSUNT。该算法适合的应用背景是:训练样本的类别不是精确的,而是具有某种已知的不确定性。采用已有的概率方式或模糊信息熵方式来表示不确定性,并以此为基础,利用HSIC依赖性准则,将对模糊性的量化集成在Gram矩阵的构造过程中。最后实验结果表明,与两个基准算法相比,算法FSUNT能更合理地衡量特征与不确定类别间的相关性,能更有效地挖掘模糊形式下的监督信息,并具有较好的可扩展性。
综上所述,本文的工作基于特征选择是由数据驱动和应用驱动的本质特点,围绕不同的监督信息,针对文本分类中特征选择面临的四个主要问题,提出了更为有效的解决方法,对于特征选择的研究和实用化具有一定的理论意义和应用价值。
【关键词】:
【学位授予单位】:国防科学技术大学【学位级别】:博士【学位授予年份】:2009【分类号】:TP391.1【目录】:
Abstract11-13
第一章 绪论13-37
1.1 研究背景13-22
1.1.1 文本分类中特征选择需求背景13-15
1.1.2 文本分类相关概念与技术15-18
1.1.3 特征选择的提出18-20
1.1.4 文本分类中特征选择的重要意义20-22
1.2 相关工作分析与挑战22-32
1.2.1 特征选择和特征抽取的比较22-24
1.2.2 特征选择研究24-28
1.2.3 主要特征选择算法分析28-31
1.2.4 文本分类中特征选择的挑战31-32
1.3 本文工作与创新点32-35
1.3.1 主要研究内容32-33
1.3.2 主要创新点33-35
1.4 论文结构35-37
第二章 有监督学习模式下层次化文本分类中的特征选择37-59
2.1 问题描述37-38
2.2 相关工作分析38-44
2.2.1 多类特征选择方法38-40
2.2.2 层次化特征选择方法40-42
2.2.3 去除冗余特征方法42-44
2.3 层次化特征选择算法FSRRH44-51
2.3.1 实例分析44-45
2.3.2 抽取不同的训练集45-47
2.3.3 去除冗余特征47-49
2.3.4 算法FSRRH的描述49-51
2.4 实验验证51-58
2.4.1 实验环境51-52
2.4.2 实验结果和分析52-58
2.5 本章小结58-59
第三章 基于相关集准则的半监督特征选择算法59-85
3.1 问题描述59-60
3.2 相关工作分析60-69
3.2.1 无监督特征选择60-64
3.2.2 半监督特征选择64-66
3.2.3 相关集准则66-69
3.3 半监督特征选择算法SFRSC69-76
3.3.1 类别标号扩展69-71
3.3.2 对重叠部分的处理71-72
3.3.3 划分结果评价方法72-73
3.3.4 算法SFRSC的描述73-76
3.4 实验验证76-83
3.4.1 实验环境76-77
3.4.2 评价标准77-78
3.4.3 实验结果和分析78-83
3.5 本章小结83-85
第四章 适用于多种监督学习模式的特征选择方法85-105
4.1 问题描述85-86
4.2 相关工作分析86-88
4.2.1 核方法86-87
4.2.2 相关特征选择方法87-88
4.3 HSIC相关理论88-90
4.3.1 再生核Hilbert空间(RKHS)88-89
4.3.2 基于RKHS的相关性标准89-90
4.3.3 HSIC的优点90
4.4 适用于多种监督学习模式的特征选择方法FSM_HSIC90-95
4.4.1 方法FSM_HSIC描述91-92
4.4.2 核函数的选择92-93
4.4.3 方法FSM_HSIC对现有算法的解释93-95
4.5 交互特征选择算法FSI95-98
4.5.1 特征交互性95-96
4.5.2 算法FSI的描述96-98
4.6 对算法FSI的实验验证98-104
4.6.1 实验环境98-99
4.6.2 实验结果和分析99-104
4.7 本章小结104-105
第五章 监督信息不确定的特征选择算法105-119
5.1 问题描述105-106
5.2 相关工作分析106-109
5.2.1 处理不确定数据的方法106-108
5.2.2 基于不确定数据的特征选择108-109
5.3 监督信息不确定的特征选择算法FSUNT109-113
5.3.1 以概率的形式表示不确定性109-110
5.3.2 以信息熵的形式表示不确定性110-111
5.3.3 算法FSUNT的描述111-113
5.4 实验验证113-118
5.4.1 实验环境113-114
5.4.2 实验结果和分析114-118
5.5 本章小结118-119
第六章 结论与展望119-123
6.1 工作总结119-120
6.2 研究展望120-123
致谢123-125
参考文献125-139
作者在学期间取得的学术成果139-141
攻读博士学位期间参与的科研项目141
欢迎:、、)
支持CAJ、PDF文件格式
【引证文献】
中国期刊全文数据库
黄章益;刘怀亮;;[J];情报杂志;2011年S2期
胡昌平;陈果;;[J];现代图书情报技术;2013年Z1期
中国博士学位论文全文数据库
王科平;[D];北京邮电大学;2011年
贾哲;[D];北京邮电大学;2012年
朱朝勇;[D];中国科学技术大学;2013年
中国硕士学位论文全文数据库
夏青松;[D];安徽大学;2012年
廖朝阳;[D];西安电子科技大学;2012年
王飞;[D];哈尔滨工程大学;2012年
李可;[D];北京化工大学;2013年
张琴琴;[D];华南理工大学;2013年
王强;[D];南京师范大学;2013年
黄娟娟;[D];厦门大学;2014年
罗常泳;[D];浙江大学;2014年
路凯;[D];华中师范大学;2014年
【参考文献】
中国期刊全文数据库
宫秀军,史忠植;[J];软件学报;2002年08期
苏金树;张博锋;徐昕;;[J];软件学报;2006年09期
陈友;程学旗;李洋;戴磊;;[J];软件学报;2007年07期
彭岩;张道强;;[J];软件学报;2008年11期
【共引文献】
中国期刊全文数据库
郑继绍;朱文兴;;[J];莆田学院学报;2006年02期
林大辉;陈秋妹;宁正元;;[J];莆田学院学报;2009年05期
宋婉娟;;[J];湖北第二师范学院学报;2010年02期
刘海峰;王元元;张学仁;;[J];情报科学;2007年10期
张野;杨建林;;[J];情报科学;2011年09期
王雅蕾;王君泽;王国华;徐晓林;;[J];情报科学;2012年02期
孙蕾;温有奎;;[J];情报理论与实践;2006年06期
韩毅;张克菊;金碧辉;;[J];情报理论与实践;2009年06期
庞观松;蒋盛益;;[J];情报理论与实践;2012年02期
李萌;孙济庆;;[J];情报探索;2009年05期
中国重要会议论文全文数据库
刘志斌;金连文;;[A];第二十六届中国控制会议论文集[C];2007年
张彬;金连文;;[A];第二十六届中国控制会议论文集[C];2007年
吕蓬;柳亦兵;马强;魏于凡;;[A];第二十六届中国控制会议论文集[C];2007年
梁禹;王义刚;王娜;;[A];第二十六届中国控制会议论文集[C];2007年
胡清华;常军涛;鲍文;于达仁;;[A];第二十九届中国控制会议论文集[C];2010年
刘华;张建华;王娆芬;王行愚;;[A];第二十九届中国控制会议论文集[C];2010年
;[A];中国自动化学会控制理论专业委员会B卷[C];2011年
王春林;;[A];中国自动化学会控制理论专业委员会B卷[C];2011年
晋朝勃;胡刚强;史广智;李玉阳;;[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
尹雪娇;;[A];创新沈阳文集(A)[C];2009年
中国博士学位论文全文数据库
赵莹;[D];哈尔滨工程大学;2010年
梁洪;[D];哈尔滨工程大学;2010年
任桢;[D];哈尔滨工程大学;2010年
殷志伟;[D];哈尔滨工程大学;2009年
孔凡芝;[D];哈尔滨工程大学;2009年
于翔;[D];哈尔滨工程大学;2010年
乔小燕;[D];中国海洋大学;2010年
陈志国;[D];江南大学;2010年
王晓明;[D];江南大学;2010年
徐红林;[D];江南大学;2010年
中国硕士学位论文全文数据库
杜二玲;[D];河北大学;2007年
朱杰;[D];河北大学;2007年
廖甜甜;[D];南昌航空大学;2010年
黄正荣;[D];南昌航空大学;2010年
刘棉;[D];山东科技大学;2010年
刘桂珍;[D];山东科技大学;2010年
李金华;[D];山东科技大学;2010年
张海峰;[D];山东科技大学;2010年
田文娟;[D];山东科技大学;2010年
陈楠楠;[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库
侯汉清;;[J];情报科学;1981年01期
岳涛;[J];情报杂志;2005年04期
吕震宇;林永民;赵爽;朱卫东;;[J];情报杂志;2008年05期
陈毅松,汪国平,董士海;[J];软件学报;2003年03期
石洪波,王志海,黄厚宽,励晓健;[J];软件学报;2004年02期
张翔;肖小玲;徐光祐;;[J];软件学报;2006年05期
苏金树;张博锋;徐昕;;[J];软件学报;2006年09期
陈友;程学旗;李洋;戴磊;;[J];软件学报;2007年07期
徐燕;李锦涛;王斌;孙春明;;[J];软件学报;2008年01期
王梅;周向东;张军旗;许红涛;施伯乐;;[J];软件学报;2008年09期
中国重要会议论文全文数据库
李卫东;杨炳儒;李龙星;曲文龙;;[A];2005中国控制与决策学术年会论文集(下)[C];2005年
中国博士学位论文全文数据库
孟佳娜;[D];大连理工大学;2011年
张海军;[D];中国科学技术大学;2011年
孙晶涛;[D];兰州理工大学;2010年
田秀霞;[D];复旦大学;2011年
杨震;[D];大连理工大学;2004年
谭璐;[D];国防科学技术大学;2005年
张国柱;[D];国防科学技术大学;2005年
杨小兵;[D];浙江大学;2005年
张葛祥;[D];西南交通大学;2005年
匡鹏飞;[D];华中师范大学;2006年
中国硕士学位论文全文数据库
段江丽;[D];太原理工大学;2011年
胡改蝶;[D];太原理工大学;2011年
曾一平;[D];北京交通大学;2011年
邓彩凤;[D];西南大学;2011年
高艳影;[D];合肥工业大学;2011年
金艳伟;[D];内蒙古大学;2011年
柯丽;[D];江西师范大学;2011年
贺爱香;[D];安徽大学;2011年
王金花;[D];河北大学;2011年
周城;[D];国防科学技术大学;2011年
【二级引证文献】
中国期刊全文数据库
杨峰;;[J];情报理论与实践;2014年05期
中国博士学位论文全文数据库
李晓旭;[D];北京邮电大学;2012年
刘杰;[D];北京邮电大学;2013年
【二级参考文献】
中国期刊全文数据库
李凡,鲁明羽,陆玉昌;[J];清华大学学报(自然科学版);2001年07期
陈毅松,汪国平,董士海;[J];软件学报;2003年03期
饶鲜,董春曦,杨绍全;[J];软件学报;2003年04期
李建中,李金宝,石胜飞;[J];软件学报;2003年10期
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 知识超市公司
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备74号一种改进的文本分类特征选择算法,文本特征提取算法,特征选择算法,特征选择算法综述..
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
一种改进的文本分类特征选择算法
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口

我要回帖

更多关于 author contribution 的文章

 

随机推荐