大数据主流技术和选型

时间:2010-12-5 17:23:32  作者:admin   来源:未知  查看:  评论:0
内容摘要:
大数据主流技术和选型_计算机软件及应用_IT/计算机_专业资料。大数据主流技术和选型 大数据主流技术 和选型 未卜先知怀孕案例 塔吉特:比父亲更早知道女儿怀孕 曾经有一位男性顾客到一家塔吉特超市店中投诉, 商店竟然给他还在读书的女儿寄婴儿用品的优惠券
..

  大数据主流技术和选型_计算机软件及应用_IT/计算机_专业资料。大数据主流技术和选型

  大数据主流技术 和选型 未卜先知怀孕案例 塔吉特:比父亲更早知道女儿怀孕 曾经有一位男性顾客到一家塔吉特超市店中投诉, 商店竟然给他还在读书的女儿寄婴儿用品的优惠券。 这家全美第二大零售商,会搞出如此大的乌龙?但 经过这位父亲与女儿进一步沟通,才发现自己女儿 真的已经怀孕了。 提问: 为什么塔吉特能知道这个用户怀孕了?必须有哪几个关键环节 A:用户数据收集 B:怀孕特征库 C:怀孕潜在用户筛选 塔吉特在和顾客沟通过程中采用了哪种营销方式 A:电子邮件 B:直邮 C:电话营销 D:数据库营销 未卜先知怀孕案例 关键环节一:数据信息记录 一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息 的呢?每位顾客初次到塔吉特刷卡消费时,都会获得一组顾客识别 编号,内含顾客姓名、信用卡卡号及电子邮件等个人资料。日后凡 是顾客在塔吉特消费,计算机系统就会自动记录消费内容、时间等 信息。再加上从其他管道取得的统计资料,塔吉特便能形成一个庞 大数据库,运用于分析顾客喜好与需求。 每个ID号还会对号入座的记录下你的人口统计信息:年龄、是 否已婚、是否有子女、所住市区、住址离Target的车程、薪水情况、 最近是否搬过家、钱包里的信用卡情况、常访问的网址等等。 Target还可以从其他相关机构那里购买你的其他信息:种族、就业 史、喜欢读的杂志、破产记录、婚姻史、购房记录、求学记录、阅 读习惯等等。乍一看,你会觉得这些数据毫无意义,但在Andrew Pole和顾客数据分析部的手里,这些看似无用的数据便爆发了前述 强劲的威力。 未卜先知怀孕案例 关键环节二:数据模型建立 Andrew Pole想到了Target有一个迎婴聚会(baby shower)的登 记表。Andrew Pole开始对这些登记表里的顾客的消费数据进行建 模分析,不久就发现了许多非常有用的数据模式。比如模型发现, 许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀 孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。 最后Andrew Pole选出了25种典型商品的消费数据构建了“怀 孕预测指数”,通过这个指数,Target能够在很小的误差范围内预 测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠广告寄发 给顾客。 未卜先知怀孕案例 关键环节三:建立和用户沟通渠道 那么,顾客收到这样的广告会不会吓坏了呢?Target很聪明地 避免了这种情况,它把孕妇用品的优惠广告夹杂在其他一大堆与怀 孕不相关的商品优惠广告当中,这样顾客就不知道Target知道她怀 孕了。 Target取得的成就: 根据Andrew Pole的大数据模型,Target制订了全新的广告营销 方案,结果Target的孕期用品销售呈现了爆炸性的增长。Andrew Pole的大数据分析技术从孕妇这个细分顾客群开始向其他各种细分 客户群推广,从Andrew Pole加入Target的2002年到2010年间, Target的销售额从440亿美元增长到了670亿美元。 大数据的技术与应用 1 大数据技术要解决的问题 大数据怎么用 2 大数据的相关技术 3 大数据的选型策略 大数据技术要解决的问题 Velocity 快速的数据流转 Streams Real time Near time Batch Value Structured Unstructured Semi-structured All the above TB PB EB Variety 多样的数据类型 Volume 海量的数据规模 发现数据价值 软件是大数据的引擎 ? 和数据中心(Data Center) 一样,软件 是大数据的驱动力. ? 软件改变世界! 大数据生态 大数据技术要解决的问题 企业用以分析的数据越全面,分析的结果就越接近于真实。 大数据分析意味着企业能够从这些新的数据中获取新的洞 察力,并将其与已知业务的各个细节相融合。 大数据技术被设计 用于在成本可承受 的条件下,通过非 常快速(velocity) 地采集、发现和分 析,从大量(volu mes)、多类别(v ariety)的数据中提 取价值(value), 将是IT 领域新一代 的技术与架构。 技术架构的挑战(处理架构、数据管理、实时响应) 1、对现有数据处理能力的挑战 传统的数据库部署不能处理数TB 级别的数据,如何构建全球级 的分布式数据库(Globally-Distributed Database) ,可以扩 展到数百万的机器,数已百计的数据中心,上万亿的行数据。 2、对现有数据库管理技术的挑战 经典数据库技术并没有考虑数据的多类别(variety) SQL(结构化数据查询语言),在设计的一开始是没有考虑非 结构化数据的。 3、对实时性响应能力的挑战 一般而言,像数据仓库系统、BI应用,对处理时间的要求并不 高。因此这类应用往往运行1、2天获得结果依然可行的。但实 时处理的要求,是区别大数据应用和传统数据仓库技术、BI技 术的关键差别之一。 回顾:数据挖掘系统进展 代 特征 数据挖掘作 为一个独立 的应用 数据挖掘算 法 支持一个或者 多个算法 多个算法:能 够挖掘一次不 能放进内存的 数据 集成 分布计 算模型 单个机 器 同质/局 部区域的 计算机群 集 intranet/ extranet 网络计算 数据模 型 第一代 独立的 系统 数据管理系 统,包括数 据库和数据 仓库 数据管理和 预测模型系 统 数据管理、 预测模型、 移动系统 向量数 据 有些系统支 持对象、文 本、和连续 的媒体数据 支持半结构 化数据和 web数据 普遍存在的 计算模型 第二代 和数据库 以及数据 仓库集成 和预测模型 系统集成 和移动数据/ 各种计算数 据联合 第三代 多个算法 第四代 多个算法 移动和各 种计算设 备 数据挖掘系统结构 图形用户接口235777高手论坛精选一

http://www.898005.netwww.898005.com,六统天下,www.1997.cc,www.1kj.com,www.1kj.hkwww.898005.com,六统天下,www.1997.cc,www.1kj.com,www.1kj.hk
招财进宝高手心水论坛| 蓝月亮料免费资料大全| 金凤凰开奖结果香港马| 香港马会2018波色资料| 精准单双中特公式| 七肖复式四肖中多少组| 香港单双特马全年| 智能历史走势开奖记录杳询| 中特网通天报| 成语平特解一肖|