垃圾微博信息过滤技术的研究

国学论文计算机论文

垃圾微博信息过滤技术的研究

文娱至上围观:℉更新时间:12-18 13:02

垃圾微博信息过滤技术的研究

第1章绪论

1.1课题研究的目的和意义

由于微博方便发送,传播范围广,成本低,微博僵尸账号,不必像传统的垃圾邮件发送者一样,获取大量用户的邮箱地址才能发送垃圾信息,微博僵尸账号只需将垃圾信息通过名人微博,热门话题等渠道发布出来即可,这大大降低了发送垃圾信息的成本,使得微博垃圾信息蔓延速度极快,相比于传统垃圾邮件的危害更加严重。根据网络安全公司的一份最新调查结果显示,和非社交网络用户相比,社交网络用户的财务账号存在更大的安全问题,更容易受到垃圾信息骚扰,身份信息更容易被盗用,但是社交网络用户本身并没有意识到这些潜在问题的严重性。这份报告中提出以下5点社交网络平台中的不安全因素:

1.三分之二的参与调查者没有对自己社交网站中的个人信息进行隐私设置和保护。

2.超过半数的参与调查者不清楚自己的个人资料等敏感信息可能被陌生人通过搜索引擎查看。

3.超过三成的参与调查者表示其社交网络个人资料中包含个人身份识别信息。

4.超过四分之一的参与调查者表示自己在网络用户账号时有使用相同密码的习惯。

5.超过三成的参与调查者表示愿意接受来自陌生人的好友请求。

通过以上调查可以看出,大部分社交网络用户还没有意识到可能受到的网络安全威胁,这也正是社交网络用户更容易受到网络攻击的原因。网络犯罪分子常采用的攻击手段是钓鱼网站,向用户发送被感染的文件或者恶意链接,劫持社交网络用户成为僵尸账号。随着移动互联网的快速兴起,社交网络也迎来了巨大的发展空间,这也使得其成为了黑客攻击的巨大目标,被黑客劫持的社交网络账号会发布大量垃圾信息,给社交网络用户带来了极大的安全威胁。垃圾微博信息的源头是微博僵尸账号,因此,如何正确定义微博僵尸账号,如何准确识别微博僵尸账号是解决垃圾微博信息泛滥的核心。

1.2本文研究的主要内容

本文主要是对新浪微博平台上的正常账号和僵尸账号的社交关系行为特征和微博内容特征进行提取,分析和对比。采用统计机器学习的方法,从分类和排序两种角度对新浪微博平台中的微博僵尸账号进行识别。

对于分类的角度,设计实现了两套微博僵尸账号检测体系。第一,根据账号所发布的微博内容特征,设计实现了基于序贯概率比的微博僵尸账号检测系统,这个系统分两个部分,前端是采用在线主动学习的机器学习方法对每个被检测账号发布的微博进行基于内容的分类,后端是基于序贯概率比算法的微博账号检测模块,根据前端每个账号发布的微博的分类结果序列对账号进行实时分类。第二,提取账号的社交关系行为特征和微博内容特征进行建模,采用离线机器学习模型进行分类,来识别微博僵尸账号。

本文组织结构如下:

第一章阐述了本课题研究的目的与意义,分析了国内外在社交平台过滤垃圾信息和僵尸账号识别的研究现状,阐述了本文研究的主要内容。

第二章详细介绍基于内容的在线微博过滤系统框架,设计并实现了贝叶斯,逻辑回归,支持向量机的在线主动学习的微博过滤系统,为第三章基于高斯分布的序贯概率比微博僵尸账号检测方法提供结果序列。最后介绍了实验数据集的获取和组成,以及评价指标。

第三章阐明了传统垃圾邮件过滤方法和垃圾微博过滤方法的联系和不同,进而说明采用基于高斯分布的序贯概率比算法识别微博僵尸账号的意义。详细介绍的序贯概率比算法的原理,设计实现了基于高斯分布的序贯概率比微博僵尸账号检测框架,对实验结果进行评价,说明基于序贯概率比的微博僵尸账号方法的意义。

第2章基于内容的垃圾微博过滤技术

随着移动互联网的快速发展,微博已经成为人们交流沟通,展示自我观点的最主要的平台。微博是一种以文本形式为主,以表情符号,图片为辅的表述展现形式,其具有数据量大更新速度快等特点,因此,十分适宜采用在线主动学习的统计机器学习的方式对微博进行分类。

2.1垃圾微博过滤方法

新浪微博平台每天能够产生近亿条微博,据不完全统计其中垃圾微博约占其中的四分之一,因此的垃圾微博的识别和过滤是一个重要而艰巨的任务。现在主要的垃圾微博过滤方法主要有三种方式:第一,人工审核的方式;第二,采用恶意链接黑名单过滤;第三,采用基于内容的统计机器学习模型进行过滤。

2.1.1人工审核的方式

新浪微博,Twitter等主要的社交网络平台对垃圾信息和账号都有人工审核的机制,由于微博信息量大的问题,新浪微博平台采取了用户举报机制,让用户举报他们认为的垃圾微博和僵尸账号,新浪微博用户举报功能可以起到一定的作用,但是这些举报信息中存在恶意举报,因此还需要对用户举报的信息进行人工审核,并且对恶意举报的用户进行扣除相应信用积分的处罚。这种方法的缺点是人工审核成本过高,而且不同审核人员的标准极难统一,因此人工审核过滤垃圾微博信息的方法只能作为辅助手段。

2.1.23恶意链接黑名单过滤

谷歌恶意链接库是存储大量恶意链接和钓鱼网站链接的黑名单,通过正则表述式匹配,如果发现微博中包含中的恶意链接,即认定这条微博是垃圾微博,如果一个账号发布了包含GSB恶意链接的微博,则整个账号也被认定为僵尸账号。根据恶意链接库过滤垃圾微博的优点是快速,成本低,自动化程度高,缺点是随着时间的强烈推荐恶意链接库中的恶意链接更新不及时,无法覆盖全部恶意链接,而且许多微博僵尸账号会将自己发布的恶意链接伪装成短链接的形式,这样更是无法识别。

2.2微博的内容特征提取

2.2.1微博的内容特征

微博是人们用来发表个人观点,所见所闻的实时社交工具,其内容往往体现出多样性,主题分散,一个用户连续发布的微博可能在主题和内容上没有任何关系。微博是属于短文本,其长度在140个字以内,采用以文本为主,以表情符号、图片为辅的表述方式。由于微博内容的多元化,使得微博内容十分多样,其中经常包含多种语言文字、特殊字符、短链接、表情图片等,因此传统的基于词典的分词方法,基于统计的分词方法,基于规则的分词方法对微博内容的提取都存在困难。本文采用基于字节流的特征提取方式可以有效的解决这些问题,提取有效的微博内容特征。

统计机器学习算法分为两种:离线学习模式和在线学习模式。离线学习模式是训练过程和分类过程有明显的界限,用现有的训练样本训练得到分类器模型,再用训练好的分类器模型对新的测试样本进行分类。在线学习模型是训练过程和分类过程是同步进行的,样本以流的形式逐一进入分类器进行分类,根据判别类别和真实类别给出用户反馈,将反馈结果返回给训练器,进行模型更新。由于垃圾微博过滤具有,微博数量大,变化速度快,微博形式多样等特点,微博僵尸账号的攻击形式多种多样,更新速度快,导致离线机器学习模型用在垃圾微博过滤中极容易失效。在线学习模型满足了垃圾微博过滤的实时性和快速自适应性,因此采用在线机器学习模型对垃圾微博进行过滤。由于微博平台会产生大量的微博信息,因此对微博的标注成本十分的高,主动学习能在保证一定分类准确性的同时降低模型对微博数据标注的需求。在微博过滤的实际部署中,对训练微博数据进行有选择的标注可让分类器获得较好的性能,错误!未找到引用源。因此在线主动学习十分贴近于垃圾微博过滤的实际应用。在线主动学习垃圾微博过滤系统流程图2-2所示。

第3章基于序贯概率比的微博僵尸账号检测...............22

3.1序贯概率比算法..............22

3.1.1基于贝努利分布的序贯概率比模型.............23

第4章基于行为特征的微博僵尸账号检测...........33

4.1用户社交行为特征............33

第5章基于pageran的微博僵尸账号检测............39

5.1pageran算法介绍...........39

第5章基于PageRang的微博僵尸账号检测

本章从排序的角度,采用PageRang算法为基础来对微博僵尸账号进行识别,微博平台的通过粉丝和关注的关系构建起账号之间的社交关系网络,根据网页之间超链接的方向和微博中账号之间的关注和被关注的社交关系形式刚好可以映射到一起,因此可以将PageRang算法应用到微博僵尸账号检测中,账号的PageRang值越低,代表账号是僵尸账号的可能性越高。

结论

随着移动互联网的迅猛发展,微博、朋友圈等社交媒体平台和人们生活连接的更加的紧密,并且正在逐渐的改变人们的沟通方式,成为人们日常生活不可缺少的重要组成部分。微博以其发布方便、快捷等特点成为人们日常生活中表述自己观点的重要渠道,垃圾微博制造者也正是利用微博的这些特点,制造微博僵尸账号发布大量的垃圾信息,因此如何准确快速的识别微博僵尸账号,去除垃圾信息源头,是减少微博垃圾信息的关键。

本文主要研究了新浪微博平台上微博僵尸账号的识别和过滤技术。采用统计机器学习的方法从账号进行分类和排序的两种角度对僵尸账号进行识别,提出了有效的微博僵尸账号检测框架。本文主要研究成果如下:

1.设计实现基于高斯分布的序贯概率比的微博僵尸账号检测方法,根据前端微博分类器对账号所发布微博的分类结果序列进行建模,对微博账号进行实时检测,有效弥补了前端分类器对微博短文本分类效果有限的不足,实验验证前端分类器对微博的分类效果,影响主要是序贯概率比检测方法所需的微博样本数。

2.分析微博正常账号和僵尸账号在社交行为和微博内容两方面的不同点,提取有效的特征,设计实现基于微博账号特征的离线模型检测方法,通过和基于高斯分布的序贯概率比检测方法对比,分析基于微博账号特征的离线模型检测方法局限性。

参考文献(略)

标题:垃圾微博信息过滤技术的研究

链接:http://m.zhaichaow.cn/lunwen/jisuanji/429535.html