数据分析与美国总统大选的不解之缘-技术开发专区

数据分析与美国总统大选的不解之缘

作者：茶一峰译编辑：王玉圆 2012-11-22 09:29 来源：TechTar

【IT168 评论】今年的美国总统大选已落下帷幕，有人称，最大的赢家既不是民主党也不是共和党，而是那些统计学家。Drew Linzer就是其中之一，他是埃默里大学政治科学助理教授，早在几个月前就毫无误差地预测了大选结果。Linzer开了一个名叫Votamatic的网站，整个总统选举阶段都在上面发布预测信息。从六月开始，他根据历史民意调查数据建立的统计模型就一直以95%的确定性显示奥巴马的获胜。

　　在Linzer的相关论文即将在美国统计协会期刊上发表之际，记者对他进行了采访，谈论了政治数据的运用、对潜在数据质量问题的看法，以及选举的残酷性。

　　记者：你的政治数据是从哪里来的?

　　Linzer：很早以前，人们就开始通过政治科学的方法对总统选举结果进行预测了。因此，学术机构有很多全面的这一类模型，水准参差不齐。我使用的模型是我的同事Alan Abramowitz创建的。这个模型使用了三个因素，一个是选举年前期的GDP增长率，来自经济分析局。这个数据是公开的，政府每年都会统计更新。另一个是现任总统的支持率，来自六月Gallup的民意调查，也是公开的。还有一个是总统党派的执政届数，这个指标主要衡量选民对执政党的厌倦程度，当然也是公开的。只要将这三项公开可用的数据结合起来，你就大概能够得出结论了。

　　记者：Nate Sliver还提到过民意调查数据的运用。

　　Linzer：那是另外一部分。现在有许多这样的民意调查收集网站，由新闻机构和少量私有民意调研公司公开发起，收集结果，发布以作营销之用。他们这样做也是在为自己的调研能力做广告，比较有名的网站有The Huffington Post、RealClearPolitics和Talking Points Memo等。像The Huffington Post，你还可以在他们的网站上下载民意调查结果。而且，他们还开发了API(应用程序接口)，在今年完全开放历史档案，这是非常宝贵的资源。

　　记者：民意调查数据是从什么时候开始对预测有用的?

　　Linzer：在每次选举前一年左右的时候，民意调查数据就产生了，只不过在一开始的时候，并没有什么启示性，无法用作选举结果的预测。通常情况下，在最后两个月，民意调查才会越来越准地透露出谁会赢得选举。在最后两周，尤其是最后一周的时候，民意调查就已经相当准确了。

　　记者：但是你的预测六月份就出来了，所以你并没有太依赖民意调查的数据。

　　Linzer：我的方法的妙处就在这里，历史数据和民意调查是我的两项主要标准。几个月前，我的模型更大程度上依赖于历史数据;随着大选将近，历史数据不变，但民意调查数据会变得越来越精准，这时，模型就不再大量依赖历史数据，而是相应地转向民意调查了。Nate Silver的模型也是同样的道理，只是使用的方式不同而已。

　　记者：当下数据质量对很多企业都是个难题。

　　Linzer：是的，这有点恐怖，是个重大的问题。

　　记者：那么数据质量问题给你的分析又带来了什么困难呢?

　　Linzer：关于民意调查，别人有提醒过我，由于方法论方面的问题，有可能会在整体上有缺陷。抽样调查肯定会出现一些随机变数，这我清楚，但你没有办法改变这一状况。另外，其他来源也有可能出错。我们称其为“机构效应”(house effect)，即由于总统候选人对待民意调查的态度不同，专家或多或少会倾向于某位候选人;而我们，只有假设这些“机构效应”可以相互抵消。一般来说，某个地方会多出一些支持民主党派的选民，同时另一个地方又会多出一些支持共和党派的选民。一直以来这个假设都被视为成立，但其实也不一定。如果是由于打不通选民的电话而造成的民意调查持续偏向于一方，那么这些效应就无法抵消。这是一个真实存在的问题，也给模型添加了一丝不确定性，不到大选结果揭晓那天谁也说不准。

　　记者：有没有所谓成熟的政治数据可供分析?换句话说，你是不是也能够根据卫生保健或是财经方面的数据建立出一个准确的模型?

　　Linzer：如果说成熟，政治数据还谈不上。只有这个领域的政治科学家才懂得建立政治现象或者政治社会行为模型的难处，因为我们预测的是人类行为，而且可参考的数据太少。如果所涉的是卫生健康领域，或者其他拥有大量可供参考数据(大数据)的领域，得出一个模式要容易得多。不过，你还是得运用模型，所有模型都只是假设。我个人区分优劣质数据分析的标准是模型的使用方法。

　　记者：模型的使用方法具体指什么呢?

　　Linzer：假设你拥有一大堆原始数据，希望从中分析出一个模式。那么数据有共性，也有特性。统计学家把这称为干扰，我们通俗的说法是随机性;关键在于如何排除干扰，得出模式。换句话说，你需要从原始数据中提取尽可能多的信息，同时不要被一些非共性的信息牵走。统计学是一个极为需要创意的领域，因为你的做法完全没有限定。

　　记者：既然你在六月就已经预测出了结果，竞选活动为什么还要持续进行呢?

　　Linzer：因为竞选中还有很多其他重要的事情要做。首先说明，并不一定六月预测出的结果就是大选最终的结果。在这一点上，今年就有点特别。即便可以预测，你也不敢打包票，况且模型之所以建立完全是因为有竞选活动的存在。如果某位候选人的竞选活动一团糟，或者筹不到足够的资金，后果都是很严重的。以过去的经验来看，只有两位候选人进行公平竞争，模型才会有用，也才会出现后来的预测。比如，其中一位候选人退出，这就是不可预测的。仅关于竞选活动对民主制度的益处，我们就可以找出一大堆理由。而从统计学的角度上看，我们是设定竞选活动会如期进行的。

　　原文链接：http://www.searchbi.com.cn/showcontent_67924.htm

关注我们