淘宝网数据仓库建设探讨
1绪论
1.1淘宝网发展历史
淘宝网由阿里巴巴集团投资创办,公司成立于2003年5月10日。是亚洲第一人网络零售服务平台,其目标是致力于创造全球首选网络零售服务电商平台。通过结合社区、淘江湖、唾哦、顽兔等社交型产品来增加网购人群的粘性,并且采用团购、C2B(Consumer-to-Business^费者对商家)模式,让网购人群乐而不返。淘宝网主要业务跨越 C2C (Consumer-to-Consumer,消费者对消者)、B2C (Business-to-Consumer 商家对消费者)两大部分。经过丨0年的发展,截至2021年初,淘宝拥有注册会员7亿,注册用户还在不断增长。据统计,淘宝网2021年11月的交易额为已超过1万亿人民币,2021年则高达6500亿元人民币,是亚洲最大的网络零售服务平台。截至2021年初,已经有超过700万人在淘宽网上注册网络店铺,带动的快递业、支付业、网络营销、淘女郎等产业链上直接或间接工作岗位达到700万个。每天在淘宝网上产生的交易订单2500多万,每天全ra半以上的快递业务都通过淘宝网的交品而产生。阿里巴巴集团2021年6月]6日进行战略调整,将旗下网络零售业务淘宝网将分拆为三个独立的子公司来运营,即C2C个人业务为主的淘宝网(www.taobao.),平台型B2C品牌服务商淘宝商城(www.tmall.)和商品比价购物搜索一淘网(www.etao.)。2021年〗]月11日,淘宝网创下单日最高成交量191亿的祌话,全天访问用户多达2.1亿人次,相当每6个中国人就有]个当天有登录淘宝网。2021年丨月10 口阿里集团再次进行业务整合,将阿里集团拆分为9个事业群,而淘宝M由原来的淘宝(中国)软件有限公口 1,转变为9个事业群中的一个事业部,把大公司拆成小公司运营,给市场,给竞争者更多挑战我们的机会,同样是淘宝网自己迎接新的挑战机会。阿里集团马云是这么说淘宝网的淘宝是一个交易平台,是一家生活服务平台,以后史是中国的个人信誉平台;。
1.2数据仓库发展背景
随着计算机技术的快速发展,在2000年左右,信息管理系统(MIS)在企事业的大量开发并运行,用关系型数据库管理数据被广泛应用,企业信息管理系统产生了各类业务卜.的大量数据,如何从这些业务数据中提取有价值的信息,利用商业智能技术将有用的信息做为企业战略决策上的支持,正是企业决策管理人员在做决策分析时需要考虑的问题。企业的信息管理系统,即联机事务处理系统主要用于数据管理,都是一些操作型的事务处理,对分析型应用处理支持得并+令人满意。此时,人们对操作型数据库里的数据进行集中加工,形成一个面向分析型的、综合的、能够更好的支持战略决策制定的决
...................................
2.3 HIVE查询语言
HIVE是基于淘宝云梯(HDFS)的一个数据仓库工具,可以将结构化和非结构化的数据经过处理成结构化的数据文本文件映射为一张二维表,并提供完整的SQL语言查询功能,可以将SQL句子转换为MapReduce程序在Hadoop平台上运行。其优点是容易掌握学习成本低,可以通过类SQL句子快速实现简易的MapReduce统计,不必开发专门的MapReduce应用程序,十分迪合互联网非结构化大型数据仓库的统计分析。同时,这个语言也允许熟悉MapReduce开发者的f?发mapper和reducer程序来处理内建的mapper和reducer无法完成的复浓的分析工作。淘宝HIVE已集图形界面为一体,降低了用户的使用门檻和学习成木,使数据分析工作变得简易容易实现。
2. 4 ETL介绍
ETL (Extract-Transform-Load的缩‘与‘,即数据怎样抽取、用什么方法进行转换、装载到数据仓库系统的过程)作为BI/DW (Business intelligence)整个数据流转的核心和灵魂,能够按照指定的业务规则过滤脏数据鬼成并提高数据的业务价值,是数据从业务源系统I丨I向口标数据仓库数据发生转变的过程,是数据仓库建设十十分重要的流程步骤。在整个数据仓库系统建设中难度最大的部分是用户需求调研和业务分析及业务模型设计,而ETL转换和清洗规则的设计是数据仓库实施工作量最大的,约占整个项目的60%?70%,这?点国内外己实施的数据仓库项口巾得到的齊遍共识。
...........................................
3数据仓库分析............................ 7
3.1计算引擎选型分析......................... 7
3.2 ETL 分析......................... 8
3.3数据模型分析 .................10
3.4 PORTAL展现分析........................ 10
4数据仓库设计....................... 12
4.1系统架构设计..................... 12
4.1.1 系统整体架构 ..................12
4.1.2 云梯讣算存储平台...................... 17
4.1.3数据层次结构.............................. 21
.......................................
6系统测试及运行
6. 1系统测试
上而巳完成淘空网数掘仓阼系统七个《投块的部分功能的文现,铠个数則仓库从系统分析到汴细设计及贫现部分都己完成,下而将进入系统测试部分。为了避免错误的发生,确保数据仓库屮开发的etl脚本能够正常A.效的运;以及为了保证数据仓库资料完整、人机界而准确以及nT移棺性、兼松叶、错W恢从能力和可维护性等各方而功能和性能,针对该阶段从源数据区到模型区的ETL过秤测试。(1)测试环境测试机OS: Liunx;测试机 IP: 182.1 19.171.38;测试云梯服务器IP: 182.119.161.82;环境变丨七参见幵发机的.profile;测试管刊n:作:Mantis。(2)测试工作分工①测试人w :审舰交脚木的规范性;拟据测m例进行测_U ;捉交测试报;②发接口人化定期捉交呵测试的脚+ ;检杏相关的测试问题;③运维接:运行脚本的规范性;反馈试运彳r结來;④幵发人捉交汗;脚木;跟踪相关的H题;根掘测U报修改:③ftnAw:检作几跟踪中丨I、的测试H题。(3)测试要点①脚木规范性检作;②脚木的实现逻饥和设II?坫汽致;③报掘又键点测试文杓进彳r测试。对f难度为A的脚木,编; yn的测试川例进行测uur完成测丨式报丨%测试报M'iwii对的关键点测试文們中
...................................
结 论
在商业竞争炽热化的今天,企业如何保证不被竞争对手击败或者从万花丛中脱颖而出,结合信息技术的发展,在企业拥有大量信息数据情况下,庞大的数据信息就像是一座金矿,如何利用大数据,通过商业智能将其价值发挥到最大,已成为企业寻找商业价值的根基。本论文所描述的系统是一个解决在真实企业生产活动中如何建设数据体系的底层平台系统。该系统涉及到互联网电子商务、商业智能、大规模并行计算等多个领域,并且为Apache提供hadoop幵源系统版本发布。在开发过程中使用了多种信息技术与理论相结合和团队化的项口发方式,在前沿互联网公司将数据仓库方法理论具体应用到生产中的一次有益的实践。
在木系统的开发中,从一开始对需求进行分析,然后通过项目组对多个方案进行讨论,分析系统要完成的主要功能,确定采用hadoop计算存储平台与数据仓库理论无缝整合,并设计出系统整体框架和各个主要功能模块的划分及功能定义,完成系统中核心功能的运行流程和主要技术难点的分析和设计。接下来对各个功能模块进行细化分析设计,同时与国际大型互联网公司同仁进行多次交流,人家共同完成了整个数据仓库系统的开发工作。最后,在各相关部门同事的协助下,对系统进行了联调测试和上线运行。整个过程历时数月,最终较好地实现最初的需求。系统上线运行后,对公司的数据化运营和高层战略决策带来了有力的支撑和推进,并获得了同亨和公司高的好评。
参考文献(略)