发表于2024-12-14
大数据预测:告诉你谁会点击、购买、撒谎或死去(修订版) pdf epub mobi txt 电子书 下载
令人着迷的, 有趣的……—— 《西雅图邮讯报》
全书充满了生动的例子……——《金融时报》
作为大数据的核心应用,预测正在繁荣发展。它改写了行业,驱动世界向前。潮流引领者比如大通银行、脸谱网、谷歌、HP、IBM、Match.com、网飞公司、优步等正借助大数据的力量对人类的行为进行预测——其中也包括你的。公司、政府、执法机关、医院和高校正利用来自预测的力量,预测你否会点击、购买、撒谎或者死去。
为什么要对人类的行为进行预测?我们有充分的理由:预测人类行为,可以战胜危机、促进销售、提升医疗保健、简化生产流程、拦截垃圾信息、优化社交网络、强化打击犯罪,以及赢得选举,等等。
预测由世界上*有效、*丰富的非自然资源——数据驱动。作为人们各种日常及社会活动的副产品,数据正在被不断被记录和整理,并日渐成为一座金矿。大数据技术通过对数据进行学习,正不断释放数据的能量。
在这本内容丰富、有趣的书中,预测分析*专家埃里克·西格尔解读了预测是如何工作和影响我们每个人的。它不仅是一本技术实践指导手册,更通过提供新的研究案例以及前沿技术,帮助普通读者和专业人士更好地了解大数据预测。
埃里克·西格尔, 博士, Predictive Analytics World创始人,《预测时报》( The Predictive Analytics Times)主编,前哥伦比亚大学教授,预测分析领域知名演讲人、教育家和领导者。
未来,大数据会变得越来越重要,其核心应用预测也会成为互联网行业以及产业变革的重要力量,我们很有必要对数据预测及其分析方法进行全面且深入的了解。在这一点上,《大数据预测》是本很好的读物,适合大数据所有相关行业的人阅读。
——周鸿祎 360公司创始人、董事长兼CEO,奇酷CEO和知名天使投资人
我对不确定性怀有敬畏之心,但科学技术的发展尤其是大数据时代的来临以及数据加工技术的进步,使人类行为可预测成为可能。我想,20年后,我们是不是会利用数据也就是预测的方法,去框定一个人的行为,或者说,我们的世界会因为预测技术改变到什么程度?读完这本《大数据预测》,基本就能找到答案了。
——罗振宇 得到App创始人
关于大数据的《魔鬼经济学》 。
——斯坦·克雷辛格 Advertising.com创始执行人
本书是21世纪生活的使用说明手册。利用大数据进行预测几乎成为所有领域的关机键,不管是科技、商业、财经、运动,还是政治。而埃里克·西格尔正是我们*理想的向导。
——斯蒂芬·贝克 《数字迷宫与*风险》作者
本书有趣、有益、细腻入微,西格尔进行了深入探究,并让科学变得激动人心。
——雷伊德·加尼 奥巴马2012年美国大选团队首席数据科学家
商业、政界以及医疗卫生领域的《点球成金》。
——吉姆·斯特恩 eMetrics Summit创始人,Digital Analytics Association主席
序 言
前 言 预测分析的职业风险
导 论 预测效应
第一章 升空!预测开始发威
开始实践
人人爱预言,虽然不精确
防护预测
价值100 万美元的无声革命
个性化的危险
预测分析程序的安装:迂回和拖延
运行过程中
基本要素:观察
行动就是决策
危险的启动
呼叫休斯敦,我们有麻烦了
能做到的小模型
休斯敦,发射
热情的科学家
让预测走入内心
第二章 权力越大,责任越大:惠普、Target超市、警察和美国国家安全局会窥探你的秘密
Target 超市的预测及其预测目标
意味深长的停顿
我的15 分钟
曝光于聚光灯下
你无法禁锢那些可传输的东西
法律与秩序:政策和数据监管
数据之战
数据挖掘并不是“攫取”数据
惠普自我学习
洞悉员工还是侵犯隐私
辞职风险:我不干了!
洞见:辞职背后的因素
危险品
辞职风险评估的价值
预测犯罪,提前杜绝犯罪
数据犯罪和犯罪数据
无法测量的机器风险
偏见的轮回
好的预测 坏的预测
第三章 数据效应:彩虹之后的饕餮
焦虑指数
将情绪可视化
在数据里寻宝
一切都数据化
把所有舱门都封死:信息太多了
谁的数据会成为你的囊中之物?
彩虹之末
预测之汁
遥远、奇特和惊人的洞察力
有关系,并不意味着是因果关系
第四章 学习的机器:大通银行对房产抵押风险的预测分析
男孩与银行的相遇
银行面临着风险
预测抵御风险
风险业务
学习机器
创建机器学习
从负面经验中学习
机器如何学习
你可以决定决策树的规模
计算机,为自己编程吧
学吧,宝贝
越大越好
过度学习:假设太多
归纳之谜
机器学习的艺术和科学
感觉真实:测试数据
去粗取精是艺术
在大通银行应用分类—回归决策树
摇钱树
回归—为何显微镜无法观察到宇宙碰撞
后续
第五章 集团效应:Netflix、众包以及增压预测
业余火箭科学家
黑马
思想外包:集思广益
众包如星火燎原
生于忧患
联合国
元学习
两个预测模型的组合
好戏在后头
集体信息
群体和模型的智慧
一袋子模型
集体智慧开始发威
泛化悖论:过犹不及
挑战极限
第六章 “沃森”和《危险边缘》节目
文本分析
英语的爱恨情仇
在理解问题之后就要回答
知识终极源泉
人工智能悖论
学习回答问题
学人走路,学人说话
更好的捕鼠器
应答机器
投机取巧的《危险边缘》
从证据中寻找答案
基础知识,亲爱的“沃森”
证据如山
用组合模型来判断证据
组合模型的组合
机器学习使自然语言处理成为可能
自信但不自负
需要速度
双重危险—“沃森”会赢吗?
《危险边缘》的惶恐
为了胜利
比赛之后:荣誉、嘉奖和崇拜
非对称性IBM 人工智能
对的预测
第七章 用数字说话:挪威电信和美国合众银行工程师
如何通过预测来施加影响
搅拌吧,用力搅拌
沉睡的狗
要预测新的内容
眼睛看不到
预测说服
具有说服性的选择
商业刺激和商业反馈
定量人性
量子人性—他是否可被影响?
通过上提模型预测影响力
银行业对影响力的运用
预测错误之事
响应上提模型
上提模型的原理
上提模型如何发挥作用
说服效应
不同行业的影响
让移动客户不移动
结 语
价值100 万美元的无声革命
当组织采用预测分析时,其意义不啻发动了一支庞大军队,只不过这是由“蚂蚁”组成的军队。这些“蚂蚁”会走上组织运营的各大前线,与消费者、学生或病人等服务对象直接接触。之后,这个“蚂蚁军团”会在预测结果的引导下改善数百个决策。这一过程可能并不是轰轰烈烈的,但用心观察其综合效果之后,会发现这些细小变化所产生的合力。每一个被改善的决策本身可能都显得无足轻重,但成千上万的决策合起来就大为不同。2005 年,某位客户让我想办法提高他网站的点击量,为此我把自己埋在了相关数据中,希望能找出办法帮助这位客户。这位客户希望其网页上的广告能获得更多的点击量。这关乎收入,广告的点击量越多,这位客户的收入就越高。这家网站在创办几年后已拥有数千万用户,用户数据大概有5000 万条,这就是用来做预测的宝贵的原始材料库,而预测的对象竟然是:点击!
广告是媒体不可分割的部分,无论是纸媒、电视还是网络媒体都离不开广告。本杰明·富兰克林曾说,人生中不可避免的两样东西是死亡和税。如果他现在还活着,一定会加上第三样东西:广告。互联网巨头Google 承认,广告是其最大的收入来源。Facebook也是如此 。
但对于我要研究的这家网站来说,广告的功能略有不同,只要能预测用户的点击率,其潜在收益就会更大。这家网站提供搜索高校奖学金的服务,在美国所有准备上大学的高中生中,大约有1/3 都是这家网站的用户。这虽是不显眼的细分市场,但对于许多大学和军校的招生工作人员来说,却是不容错过的网站。在该网站上,有一则大学招生广告很霸气,它自称是“美国创新型教育的领导者”,上面还附加了链接让用户点击。不难想象,一些提供学生贷款的机构也选择在这家网站上投放广告,让报考学生没有财务上的后顾之忧。这些广告商为每次点击支付25 美元。对于网站而言,如果一次点击就能换来这样丰厚的收入,那真是太棒了。此外,网站上的广告与网站主题紧密相关,而网站的用户也有很强的目的性,因此平均下来每100 次点击就能产生5 笔成功交易,这是令普通网站难以企及的业绩!因此,拥有这家网站的猎头公司从中获利颇丰。任何微小的改善都意味着总收入的显著提升。
但要想改善用户的广告选择却不是件容易的事。网页切换时,用户面前可能会出现很多广告。最难的就是让用户点击最适合他们的广告链接。目前,网站根据各广告的平均点击率来排序,完全没有考虑用户的独特需求。因此,点击最多的广告总是摆在最显眼的位置。这样的安排降低了广告与单个用户的匹配度,而且广告一旦被推到显眼的位置,就很难被替换下来,因为大量用户总是会不经意地点击最显眼处的链接。某些大学对每次点击都愿意支付高价,而且因为位置显眼,其广告链接的点击率也很高。因此,似乎没有理由用冷门的广告去替换主流广告,因为这样做很可能会失去唾手可得的收入。
本书旨在通过量化方法来预测人类的行为。人类在此方面的最初实践是在第二次世界大战时期。1940 年,“控制论之父”诺伯特·维纳开始尝试预测德国空军飞行员的行为,目的是消灭这些纳粹空中力量。其预测方法是,观测德国飞机运动的轨迹,推测飞行员可能采取的机动规避动作,由此推断飞机接下来所处的位置并用高射炮将其击落。然而,维纳只能推断出飞机下一秒的飞行轨迹,要想精确炮击飞机,必须预测飞机至少20 秒内的飞行轨迹。
在埃里克·西格尔的书中,你将看到许多预测案例,这些案例与维纳预测德国飞机的案例相比要精准许多。与“二战”时期相比,目前计算机的运算性能有了极大的提升,数据的丰富程度也非维纳之时可比。因此,银行、零售商、政治团体、医院以及其他众多机构,都在通过计算机数据处理来预测某些特定人群的行为,进而赢取客户、赢得选举或治愈疾病。
在本人看来,这些预测行为总体上是有益于人类发展的。在疾病治疗、打击犯罪以及反恐等领域,预测能挽救生命;在商业广告领域,预测能让广告定位更加精准,从而保护森林(减少无效纸质广告和宣传册的发放)、节省受众的时间和精力;在政治领域,那些相信科学预测方法的政治候选人会有更大的胜算。
然而,正如西格尔在本书开篇坦诚指出的那样,这些方法也可能产生问题。西格尔引述了电影《蜘蛛侠》中的台词“力量越大,责任越大”来说明这一点。其引申意义是,人类必须谨慎运用预测模型,否则其效用和益处就会大打折扣。与其他重要发明或革命性创新成果相似,预测分析本身并无是非对错之分,但作为工具,它会带来或善或恶的结果。要想避免预测分析的不正当应用,我们首先必须知晓预测分析究竟都能做什么,随着对本书阅读的深入,相信你会对此问题形成自己的见解。
本书的重点是预测分析,这是诸多分析方法中的一种,是最有趣和最重要的分析方法。在我看来,纯粹的描述性分析已经过时了,因为它只是记录过去发生的事情,无法真正说明这些事情为何会发生。此外,我也经常在自己的书里提到第三种分析方法,即规范性分析,也就是通过控制实验或定向优化来告诉人们应该怎么做。但这些数理分析法的应用范围较预测分析要小许多。
本书内容及其背后的思想与纳西姆·尼古拉斯·塔勒布的思想恰恰相反。塔勒布在《黑天鹅》等书中提到,由于世界充满偶然性且复杂事物的发展总是具有内在的不可预测性,因此预测行为注定会有失误。毫无疑问,塔勒布的话是有道理的,世界上总会有不可预测的“黑天鹅事件”,但大部分人类行为都具有惯常性和可预测性。西格尔在本书中所给出的大量成功预测的案例表明,世界上大部分天鹅是白色的。
同时,西格尔也在试图避免陷入“大数据”的陈词滥调。尽管书中的某些案例具有“大数据”分析的特征,即数据量庞杂无序以致难以用传统关系数据库进行分析,但预测分析的关键点不在于数据的规模或繁复程度,而在于如何对待数据。我认为,通常,“大数据不过是小算术”,某些大数据领域从业者所做的不过是用宏大数据来装点门面。其价值与真正的预测模型相比,自然有云泥之别。
西格尔在本书中所阐述的理念复杂精巧,但其行文却浅显易懂,无论读者是否熟悉数理分析,都可读懂本书。书中包含了大量的实际案例和分析图表,笔触通俗诙谐。即便是非数理分析专业人士,也应该好好阅读本书,因为在现实生活中,任何人的行为都免不了成为他人分析和预测的对象。此外,非数理分析专业人士也免不了要在实践中学习预测模型、评估模型效果并根据预测模型的结果采取适当的行动。
总而言之,我们所处的是讲究预测的社会。要想在这样的社会中生存发展,最好的方法就是去理解预测模型的目标、方法以及限制,要想做到这一点,最好的方法莫过于阅读本书。
托马斯·H. 达文波特
巴布森学院杰出教授
麻省理工学院数字业务中心成员,德勤分析高级顾问
国际数据分析研究所联合创始人
《数据分析竞争法》联合作者
OK
评分京东的图书质量挺好的,开卷有益。
评分OK
评分经典书籍,买来学习中……
评分很好的入门书,解释的很清楚。
评分一直在京东买书,送货快,是正版
评分很好的入门书,解释的很清楚。
评分在京东买书很方便,正版图书,性价比高!以后还会再买的~
评分满意
大数据预测:告诉你谁会点击、购买、撒谎或死去(修订版) pdf epub mobi txt 电子书 下载