蚁群聚类理念之电子商务个性强烈推荐计算概述
第一章 绪论
1.1研究背景
随着互联网的迅速发展,电子商务也应运而生,而其本身具有的价格优势和购物的方便快捷性等优点,使得人们越来越倾向于进行网上购物,从而推动了电子商务的普及和发展。然而电子商务也有其缺点,信息资源的爆炸式增长导致信息的有效利用率下降,这种现象我们称为信息过载。在电子商务时代,用户期盼摆脱搜索过量的信息难度,希望企业按照自己的爱好、消费习惯为自己量身定制地强烈推荐信息,为了满足用户的需求,电子商务强烈推荐系统应运而生。所谓电子商务个性化强烈推荐系统就是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。购物网站的强烈推荐系统为客户强烈推荐商品, 自动完成个性化选择商品的过程, 满足客户的个性化需求目前电子商务个性化强烈推荐系统迅速发展,国内外很多大型的电子商务网站为了满足用户对个性化强烈推荐的需求都使用了电子商务强烈推荐系统,如国外的:Amazon、CDNOW、eBay和国内的:淘宝、当当、豆瓣等。而对于强烈推荐系统而言,算法起着决定性作用,国内外许多研究者们对强烈推荐算法开展了研究,提出了很多不同的强烈推荐算法,但是协同过滤强烈推荐算法无疑是使用最多的。对协同过滤强烈推荐算法的研究可以分为:基于用户的协同过滤强烈推荐算法和基于项目的协同过滤强烈推荐算法。前者是按照用户之间的相似性获取目标用户的最近邻居,然后依据用户的最近邻居来预测用户对目标项目的评分,然后把前N个最高的评分项目向用户进行强烈推荐。后者是根据项目间的相似性来获取目标项目的最近邻居集合,然后通过邻居集合预测用户对项目的评分,最后向用户强烈推荐前N个评分最高的项目。但是以上两种算法都面临以下的问题: 1) Web 环境下,巨大的数据量使得寻找相似兴趣用户候自选集数量较大;2) 数据的稀疏性,这看起来和数据量大相矛盾,但是用户实际评分的条数还是相对较少,这造成强烈推荐系统候自选集的稀疏性。
1.2国内外相关领域研究现状
协同过滤这一概念是由 David Goldberg, David Nichols, Brian M.Oi 和 DouglasTerry[1] 在 1992 年首次提出的,那时协同过滤算法被应用在一个 Tapestry 系统。而目前协同过滤算法多被用在电子商务系统中。国外对这方面的研究比较有名的是:由Minnesota 大学计算机科学与工程系 GroupLens Research 研究组开发的 Grouplens 和Movielens 协同过滤强烈推荐系统。国外协同过滤强烈推荐算法还被应用在其他领域,比如课程强烈推荐系统、微博好友强烈推荐系统等。当然还存在其他的强烈推荐系统,如表 1.1 所示在国内强烈推荐系统被应用于许多领域,但研究主要集中在两种协同过滤算法,分别是基于用户的协同过滤强烈推荐算法[7,8]和基于项目的协同过滤强烈推荐算法[9,10]。两种算法都具有片面性,没有考虑到用户和项目的相互联系。为此,黎明[11]和谌彦妮[12]提出了融合两种方法的算法,在一定程度上减小了MAE的值,提高了强烈推荐的效率。但是他们提出的算法面临着以下的问题:当相似度的计算公式的分母为0时,相似度应该如何计算;结合基于用户和基于项目的协同过滤算法预测评分值的控制因子是如何计算的。虽然在国内和国外强烈推荐系统在不同领域都有着成功的应用,但是随着强烈推荐系统的信息量越来越大并且Web系统自身也存在复杂性,强烈推荐技术面临更大的挑战,稀疏性、冷启动、可伸缩性等问题已成为阻碍其发展的绊脚石,针对这些问题国内外许多优秀研究者做了大量而细致的研究。
第二章 相关理论概述
2.1 电子商务强烈推荐算法
电子商务(电子商务)基于计算机网络和电子技术,把原来传统的销售、购物渠道移到互联网,打破有形和无形的国家和地区的障碍,使企业的全球化、网络化、无形的、个性化和集成化[45]。电子商务强烈推荐系统中的强烈推荐的方法是其最核心、最关键的部分,它决定了系统的性能和优势。目前,主要的方法:基于内容的强烈推荐、协同过滤强烈推荐、基于关联规则的强烈推荐、基于效用的强烈推荐、基于知识的强烈推荐。( 1 )基于内容的强烈推荐:基于内容的强烈推荐是根据信息的内容提出提议,而不需考虑用户对项目的评价信息。用户的数据模型依赖于学习方法,常用决策树、神经网络和其它基于矢量的表示形式。( 2 )协同过滤强烈推荐:协同过滤(协作过滤强烈推荐)是研究最普遍的个性化强烈推荐技术。根据用户的评分,获取指定用户的邻居集合,然后再根据邻居集合对目标商品的评分进行预测,最后选择评分最高的前N个商品向目标用户进行强烈推荐。( 3 )基于关联规则的强烈推荐:基于关联规则的提议是依据关联规则获取相关项目,进而形成这些项目之间的相关强烈推荐。在零售行业中,关联规则挖掘可以成功寻找到不同商品的联系,进而实现不同商品的销售。( 4 )基于效用的强烈推荐:基于效用的强烈推荐(Utility-based Remendation)是依据用户使用项目的效用情况为用户创建效用函数。
2.2 蚁群算法
蚁群算法主要是模拟生物学中蚂蚁的觅食行为而得到的,不断地从巢穴出发觅食的蚂蚁,在它所经过的路径上不断释放信息素,并且能够识别信息素的存在和浓度,其选取一条路径的概率和该路径上的信息素浓度成正比。所以此算法具有正反馈性,某一条短径上的信息素越多,会有越来越多的蚂蚁选择这条路径;反之信息素越少,选择这条路径的蚂蚁也越来越少,最终该路径被放弃。群算法虽然是根据现实蚂蚁的行为特征而进行抽象出来的,但是此算法中的所使用的蚂蚁又称为人工蚂蚁与现实中的蚂蚁也有区别。以TSP为例来说明人工蚂蚁和现实蚂蚁的区别:人工蚂蚁具有记忆功能,它可以记住自己曾走过的路径,以避免重路,而生物学中的蚂蚁无记忆功能,蚂蚁间的交流主要依靠信息素;人工蚂蚁引入了与问题相关的启发信息;在蚁群算法中人工蚂蚁处于一个离散的环境中,而现实蚂蚁分布在一个连续的时间维上。所以蚁群算法不仅具有现实蚂蚁具有特征,也有自己与众不同的特征。总体来说蚁群算法具备自组织、分布并发性、正反馈性和鲁棒性特征。
第 3 章 基于蚁群聚类的电子商务个性化......23
3.1 蚁群聚类算法 ....23
3.2 融合用户和项目的协同过滤强烈推荐算法 ........26
第四章 实验设计及结果分析.....30
4.1 数据集 ....30
4.2 度量标准 ........30
4.3 实验过程 ........31
4.3.1 实验环境.........31
4.3.2 实验结果及分析.........31
第五章 结论.......35
5.1 研究的优点与不足 ......35
5.2 未来展望 ........35
第四章实验设计及结果分析
4.1 数据集
本次试验数据采用Web网站中MovieLens提供的用户评分记录信息。从此网站数据库中选中的测试数据集包括:943个用户对1682个项目的近10万条条评分记录信息。用户对影片的评价分为{1、2、3、4、5}五个评分等级,1为最低分,5为最高分。整个数据集按照70%和30%的比例分为训练集和测试集。另外数据集还包含用户和项目的属性如下:
1. 用户和项目的ID都是连续的正整数;
2. 每个用户的含有人口统计信息相关的属性,比如年龄、性别、职业、邮编等;
3. 每个项目包含有如下特征,分别为:电影ID、电影名称、发行日期、视频发行日期、IMDb地址、电影的种类等;
4. 每条评分信息的时间戳
结论
本文的优点是利用蚁群聚类算法对用户进行聚类,然后在聚类簇中采用融合用户和项目的协同过滤算法对用户进行强烈推荐,并且对传统的基于用户和项目的协同过滤算法进行改进,当用户共同评分的项目数量大于某一阈值时,采用基于用户的协同过滤强烈推荐算法,反之运用基于用户-项目的协同过滤强烈推荐算法。实验结果表明该算法要优于传统的协同过滤算法和基于用户和项目的协同过滤算法。另外本文对电子商务的强烈推荐算法的许多细节问题进行了有效改善。但是本文研究的还存在缺陷,对蚁群算法的改进还不足,用户聚类存在只聚类一个簇的缺点;另外本文在提取聚类好的用户的方法还不够智能。
参考文献(略)