作者:戈小羊 / 微信公众号:qspyq2015
这是秦朔朋友圈的第1353篇原创首发文章
这是个人人都在撒谎的世界。我们对朋友撒谎、对老板撒谎、对自己的孩子撒谎、对父母撒谎、对医生也撒谎,当然对老婆、老公更要撒谎,甚至对自己撒谎。社会学家的调查问卷早就没办法获得人们的真实想法,他们获得的不过是人们修饰过的、美好的想法和观点;就连决定国家经济政策的重要指标,比如失业率、GDP等都没办法获得货真价实的数据,以此来为国家政策制定作参考,后果可想而知。
那么什么时候人们才会说真话呢?我们如何才能够听到人们的真话呢?前谷歌数据科学家Seth Stephens-Davidowitz在他的新书《Everybody Lies, Big Data, New Data and What the Internet Reveals About Who We Really Are》(人人都在说谎,大数据、新数据以及互联网暴露的真实你我,以下简称:《Everybody Lies》)里告诉大家的答案是:谷歌搜索引擎。这当然不是帮谷歌做广告。事实上,在加入谷歌之前,Seth就已经利用谷歌推出的Google Trends分析人们的搜索热词,分析大众的真实想法。
Seth本科毕业于斯坦福,从哈佛拿到经济学博士,因为对数据的热爱受邀加入谷歌,现在他在宾大沃顿商学院教授一门数据课程,他也是《纽约时报》的数据专家。他的这本《Everybody Lies》今年5月份才刚刚推出,是Seth这些年大数据分析的最新成果,读起来非常有意思。
Seth说互联网时代,人们唯一不会撒谎的对象就是搜索引擎。夜深人静,一个人独坐书房,不可与人言的苦闷、憋屈或者疑问都可以毫无保留地写进搜索框,来寻找答案。人们觉得只需要关机之前,清理一下缓存,就真是“神不知、鬼不觉”了,而事实上,搜索引擎记住了这一切。
Google Trends上可以找到每个词、相关事件的被搜索情况,这比问卷调查得到的数据靠谱多了。比如在一项关于美国成年人性生活的社会学调研中,社会学家根据问卷发现,女性提供的性生活次数和使用的避孕套数量,是一年要用掉11亿个避孕套;而男性提供的数字,则要用掉16亿个避孕套。那么究竟哪个数字比较准确呢?根据尼尔森的调查显示,美国一年出售的避孕套数量在6亿个,远远少于男性和女性提供的数字。“其实人人都在撒谎,只是程度问题”,Seth对此如此解释。
Seth通过谷歌的搜索数据不仅佐证了尼尔森的数据,而且进一步发现了社会学家通过调研根本没有发现的问题:美国人的婚姻中存在的最大问题是无性婚姻。根据谷歌的数据,搜索“无性婚姻”的人数比搜索“不幸福婚姻”的人数多了3倍半,是“无爱婚姻”的8倍!这是社会学家通过问卷怎么都发现不了的,因为问卷里只有1%的人承认自己过去一年没有性生活,但实际上这个数字远远大于1%。
一个小小的社会学调研,得出的结论和实际情况都能谬之千里,更何况是那些更重要的数据:比如失业率、GDP增速、购买力、行业发展、投资情况等等。我们普通人如果根据这些数字来投资、国家如果根据这些错误的数据来制定政策,你觉得结果会怎么样?想想都是件很可怕的事情。
那么大数据能够帮助我们看清事实真相吗?怎么获取这些数据?数据量越大越好吗?如何正确地解读数据呢?Seth在他的书里,提供了一些让人脑洞打开的案例。
可以打败高盛的大数据公司
每个月特定的一个周五,都是包括高盛在内的华尔街各大金融机构最为忙碌的时间点。大部分人早上7点就会到公司,忐忑地等待着一个数字在彭博终端上蹦出来,他们好第一时间进行市场操作。这个数字就是每个月的失业率。中国人可能不太理解,这个数字在美国的重要性就相当于是每年中国的GDP增速,所有的国家财政政策、金融政策等都会根据这个数字进行调整,金融市场自然也会跟着波动。
但是因为失业率的收集方法很古老,而且还有时延,所以往往是就算这个月情况有所好转,但是得到数字显示失业率很难看,那么政策就要调整。这个滞后性有时是灾难性的。现在都21世纪了,大数据的时代,有什么办法可以让这个古老的统计方法改进一下吗?
谷歌的科学家们已经可以早于高盛和美国白宫,拿到经济数据了。他们通过大量的数据分析,发现经济好、房价涨的时候,人们普遍搜索的关键词是“新房的施工队”、“房贷比率”、“优惠的房贷利息”等,而经济差、房价跌的时候,人们搜索的关键词是“快速卖房流程”、“资不抵债”、“抵押贷款减免救济”等等。这些实时性的搜索,远比美国官方统计的数据更能反映真实情况。
话说回到“失业率”上来。谷歌的科学家们发现,失业率有上升的迹象,那么有几个关键词的搜索频率就会增长。当然不是“新工作”、“失业办公室”,搜索最多的居然是色情网站!这个正常人乍一听要脸红的事情,居然是很多失业的人搜索最多的地方。不过想想也对,这些人正好有大把的空闲时间,而且经济还没有完全衰退的迹象,所以他们觉得借失业给自己放个假,过几天再去找工作也好。而等到美国白宫和华尔街拿到失业率的上升数据,那至少是一个月之后的事情,政策出台又得一段时间。
Seth在此总结了一下,他认为大数据的价值并不在于“大”,而在于数据可否给你提供新的信息,这些信息是以往从来没有被收集和发现的。
大数据如何帮我们发财致富?
我们来看一个古老的行业,赛马。赛马可以说是贵族运动,尤其是购买名马,动辄上百万美元一匹。但是赛马也是博彩业,获得冠军的马能够为主人迎来更加丰厚的奖品。如何能花小价钱买到好马,则是赚钱的关键。
根据我们的常识,衡量好马的标准就是它的血统和外表,如果它是冠军的后裔、又长得很威风,那么自然出价就高。但是有人不这么认为。Jeff Seder就是赛马界的另类和传说。
这位以优异成绩本科毕业于哈佛大学,又在哈佛念了法律和商科的学霸级人物,发现自己并不喜欢华尔街无聊的工作,他还是热爱乡下自由的生活以及赛马。所以,他辞职回家创业。学霸自然跟那些文化水平不高、又保守的传统赛马界人士完全不同,他根本不看血统,也不太在意外表,除非影响正常的观感。
经过多年的精心研究和分析,Jeff Seder找到了一套独特的识千里马的办法,而且屡试不爽,他的公司现在非常赚钱。Jeff向Seth透露,为了识别千里马,他收集了很多数据,包括通过录像研究马的血统、马跑步的姿势、马腿的大小、还有马的鼻孔大小等等,能想到的他都试验过,结果是没用。在他进入这个行业的第12年,Jeff忽然开窍了,他决定看看马的内脏大小是不是会影响赛马的成绩。结果他发现马的心脏大小、尤其是左心室的大小,直接决定了马的成绩。为此,他还自己研制了一个特别测听器来检测马的心脏大小。当然,对于一匹好马而言,心脏大是关键,但其他脏器也不能小。
这个赛马的例子可能离我们有点远,不是每个人都可以靠赛马赚钱。那么葡萄酒是不是就离我们近一些呢,毕竟到处都是82年的拉菲,不买也得会识货呀。为什么是82年的拉菲值钱,那么81年的不是更好吗?大数据能否告诉我们一个简单粗暴的办法来看懂葡萄酒,以免我们上当受骗呢?或者教我们买到值得收藏的葡萄酒呢?
果然还有。又是一位学霸研究出来的。这位是普林斯顿大学的经济学教授Orley Ashenfelter。这位教授非常爱喝葡萄酒,大约十几年前,他花了大价钱从波尔多的酒庄买了真的葡萄酒。但是他很困惑的是,为什么都是一个庄园的葡萄酒,有些好喝、有些很难喝呢?关键价钱都是一样的啊,怎么样才能只买好喝的葡萄酒呢?
后来,教授的朋友,也是一位研究酒类的记者告诉他,酒的好坏跟当年的天气有关系。这就是为什么82年的拉菲最好,因为那一年波尔多的天气非常适合酿造葡萄酒。这激起了教授做学术的好奇心,经济学教授打算仔细研究并量化一下好天气,这样下次就可以买到好喝的葡萄酒了。
Ashenfelter教授真的不懈地找到了过往的天气,还有葡萄酒拍卖的价格,经过一系列量化分析,他居然得出了一个数学公式!
葡萄酒的价格=12.145+0.00117*当年冬季降雨量+0.0614*成长季节的平均温度-0.00386*收获时的降雨量。
Ashenfelter教授说从此他买的葡萄酒都味道不错。如果大家对葡萄酒感兴趣,不妨拿这个公式检验检验。
放之四海而皆准的大数据分析方法
可能你会说上面举的几个例子都太个案了,只是针对某一类的具体问题有用,那么有没有一个放之四海而皆准的、又经得起各方面考验的大数据分析方法呢?
Seth在他的书里还真举了一个例子:Premise公司。这家大数据公司,如今的客户是包括世界银行及很多不发达国家的政府机构。Premise向这些客户提供反应全球经济和该国家经济的实际情况的实时数据,给予他们制定政策所需的关键数据分析。Premise是怎么做的呢?
Premise在目标国雇佣了很多当地的工人。这些工人的工作就是用智能手机拍照片,在加油站也拍、在超市也拍、出门逛街也拍,总之没有任何要求地拍摄照片,然后传回到Premise总部。这些照片数据被大量传回之后,Premise公司的科学家们迅速把照片变成数据,然后对其中的信息进行解读:加油站排队人数多,说明经济可能存在潜在问题;超市里的新鲜水果库存不足,也说明经济存在问题等等。通过这些数据,Premise公司成功地预测了中国在2011年因食品涨价引发的通胀和2012年的通缩,他们的报告远远早于中国政府的官方数据。
世界银行希望了解菲律宾地下烟草市场的情况,包括官方突击检查对那些地下制烟厂的打击力度有多大。因为世行花了很多钱支援菲律宾,肯定要看到效果。Premise的办法是雇人拍摄菲律宾街头的香烟盒,因为所有合法的香烟都会在烟盒上贴上标签。事实证明,2015年,菲律宾的地下烟草市场很庞大,但是2016年缩小了很多,官方还是很给力的。
Premise每年因为这些数据研究进账数千万美金,业务还在不断扩大。
数据科学家Seth在他的书里分享了一个人人都公认的事实:人人都在撒谎,只是程度不同而已。那么积少成多之后,我们眼睛看到的世界就和实际的世界完全不同,在这样谬之千里的基础上,所做的很多决定都有可能是错误的,至少是滞后的。这大概就是我们经常觉得国家政策和市场脱节、广告商花了大价钱还做了一个很烂的广告、我花了那么多心思还得不到领导的欢心、别人赚钱那么容易为什么我赚钱这么难等问题的原因。
但并不是人人都是大数据专家,也不可能什么事情都不干坐在那里对数据吧。那么该怎么办?Seth还是给了我们一个很有希望的方向:大数据的真正价值并不在大,而在于是否能够发现新的信息;而且大数据的结论其实并不是超出常理很多,更多的是让我们看到被隐藏的真相而已。因为研究大数据的目的,是研究人的本能和真实想法,这是我们天天都在做的事情,只是被我们自己遮蔽了而已。所以,当你夜深人静,独坐电脑前,在搜索引擎里敲进去的字,才是你自己的心声呀。
作者作品链接:
不要跟赌场说谎,它真的比你老婆还了解你
「 本文仅代表作者个人观点,未经允许不得转载 」
秦朔朋友圈微信公众号:qspyq2015
商务合作|请联系微信号:qspyqswhz