科技极大程度上改变了世界: 登月计划,互联网,基因组测序。 但随之而来的是我们内心深处的忧虑, 大约30年前, 文学评论家尼尔•波兹曼出了一本书, 名为《娱乐至死》, 将这个问题展现得淋漓尽致。 他这样写道, 将乔治•奥威尔和阿道司•赫胥黎 两人的反乌托邦观点做比较, 奥威尔害怕我们的文化成为「受制文化」。 赫胥黎担心的是我们的文化成为「琐碎文化」 奥威尔害怕的是真理被隐瞒, 赫胥黎担心的是我们被淹没在 无聊烦琐的世事中。 简言之,这是「老大哥」看你 还是你看「老大哥」的选择。 (译者注:「老大哥」典出奥威尔名著《1984》) (笑声) 但事实不尽然, 我们不是只能被动地接受数据和科技。 我们能改变科技在我们生活中扮演的角色, 也能改变享受数据带来的恩惠的方式, 但要实现这一目的, 思考方式固然重要, 我们也要对如何解读数据 投以同样高的关注度。 我们需要问问题,要问深刻的问题, 不再单纯地统计数据, 而是要进一步理解数据。 我们身边充斥着那些 讲述世界上有海量数据的故事, 但当我们面临大数据, 面临理解大数据所的挑战, 数据量的大小不代表一切。 还有数据传播的速度, 数据的类型, 举几个例子: 图像, 文字, 视频, 音频。 不同类型的数据能有机地结合在一起, 因为正是人类创造了这些数据, 而且要在一定背景前提下理解特定数据。 目前,一个来自伊利诺大学 芝加哥分校的数据科学家团队, 自称「健康媒体合作实验室」, 正与疾控中心合作, 试图进一步了解 人们谈论戒烟的方式, 谈论电子烟的方式, 以及他们如何协作 来帮助人们戒烟。 有趣的是,如果你想了解 人们谈论吸烟的方式, 首先需要了解 「烟」在他们口中的含义。 在Twitter上,「烟」的含义通常有四类: 第一,吸烟; 第二,抽大麻; 第三,烟熏肋排; 第四,闻香识女。 (笑声) 然后你就会想, 人们是如何谈论电子烟的呢? 人们谈论电子烟的方式非常多, 从屏幕上你们可以看到谈论的方式是如此繁多。 这就让我们想到, 语言是人类创造的, 人类的语言是复杂混乱的, 我们用各种语言,无时无刻不在讲着比喻, 说着俚语和术语, 好不容易弄清了,立马就又变掉了。 那么,疾控中心投放的广告, 以及电视上那种看起来让人非常不安的 形象地画了一个喉咙烧出来洞的女性的广告, 这些广告会影响人们戒烟吗? 健康媒体合作实验室承认其数据的有限性, 但他们还是做了这样的结论, 那些广告——或许你们都见到过—— 确实会震颤人的内心, 让他们有所思考, 这样或许会影响他们未来的行为。 这个项目让我尊重和欣赏的地方, 不仅在于该项目基于人们的真实需求, 还在于它充分诠释了面对「无聊烦琐的世事」 展现出来的勇气。 因此,并不只是大数据在挑战我们对事物的理解, 让我们直面这一事实吧, 不管处理多少数据,哪怕再少的数据, 人们也能把它搞得一团糟, 「见多不怪」了。 你或许会记得,几年前, 前总统罗纳德•里根 在声称「事实是愚蠢的」后 被严厉指责。 平心而论,这是一个口误。 他原本是想引用约翰•亚当斯 在波士顿惨案审判为英军士兵的辩言 「事实是顽固不化的。」 但事实上,我认为 里根总统那句话蕴含着些许智慧, 事实固然顽固不化, 有时确实是愚蠢的。 这对我意义深远, 我讲一个私人故事来告诉你们为什么。 我要深吸一口气。 我的儿子艾萨克,在他两岁的时候, 被诊断出患有自闭症, 在我们眼里,他是个幸福、欢快、 充满爱意、惹人喜欢的小孩, 但该发展水平评估 关注的指标是诸如言多言寡—— 当时,是零—— 互动性姿势和最少目光接触, 根据这套评估标准的结果, 他的发展水平相当于9月大的婴儿。 按照这套标准,结果无可厚非, 但这不是全部。 一年半之后, 在他快要四岁的时候, 有一天我发现他坐在电脑前, 在Google图片搜索中搜索「women」 拼成了「wimen」 接下来我做了任何有心的父母都会做的事, 我立马就按了后退按钮, 看看他还搜索了什么。 查到了,按顺序来:男人, 学校,汽车和电脑。 我目瞪口呆, 因为我们还不知道他会拼单词, 更别说读写了,因此我问他, 「艾萨克,你是如何做到的?」 他很严肃地看着我说, 「在搜索框里输入。」 他一直在自我学习如何去沟通, 但我们将注意力投在了别处, 很显然,那些发展水平评估 过分注重了一个指标—— 言语沟通—— 而忽视了其他指标,如问题解决能力。 沟通对于艾萨克而言很难, 所以他找到了一个变通方法, 自己去探索想要知道的信息。 你考虑一下,这确实很有道理, 因为提出一个问题 是复杂的过程, 但他能通过在搜索框中输入单词来达到同样目的。 因此,这一个小插曲 深深影响了我和我的家庭, 因为它让我们对发生在他身上的一切 有了全新的认识, 也不那么担心他了, 而且更加欣赏他的「人小鬼大」。 事实是愚蠢的, 极容易被误用, 有意或无意地。 我有一个叫Emily Willingham的朋友,是科学家, 不久前他为福布斯杂志写过一篇文章, 名为《十个最奇怪的跟自闭症相关的事情》 此文深得我心。 「互联网」,一切罪恶的源头,对吧? 当然,「母亲」也是其中一条。 事实上,没这么简单, 「母亲」还进一步细分为多条。 你们可以看到这个清单真的内涵丰富又有趣。 我很「欣赏」那些在在高速路旁怀孕的人。 最后一条很有趣, 因为「冰箱母亲」在最初被认为是 孩童自闭症的原因, 这个词表示那些冰冷的、没有爱心的人。 话已至此,你们也许会问, 「好吧,苏珊,我们明白了, 你能理解数据,你可以决定数据的意义。」 这是对的,这绝对是没问题的, 但挑战在于, 你们自己也有机会明白数据的意义, 因为,坦白地讲,数据自己不会创造意义, 是我们创造数据的意义。 因此,作为商人,作为消费者, 作为病人,作为公民, 我认为我们都有责任 花更多时间来锻炼批判性思维能力。 为什么? 因为历史发展到今天, 我们总是听到这样的说法, 我们能以闪电般速度 处理海量数据, 这就意味着我们能以更快地速度做出错误的决策, 带给我们史无前例的巨大影响。 没错吧? 因此,我们需要做的就是 多花一点时间在 人文学, 社会学,社会科学, 修辞学,哲学,伦理学, 因为这些知识非常有助于帮助我们理解大数据, 而且也能锻炼我们的批判性思维。 毕竟,如果我能在一个论断中发现问题, 这个问题是以文字还是数字的形式呈现并不那么重要。 而且,这些知识会 让我们有能力辨识出事实与偏见, 错误的关联信息, 有能力在30码开外就看透赤裸裸的情感诉求, 因为,乙事件发生在甲事件之后, 并不意味着是甲导致乙的发生, 允许我耍一下酷, 罗马人称之为 「post hoc ergo propter hoc」 即「后此谬误」。 这意味着我们要对人口统计学 这样的学科打个问号。 为什么?因为这样的学科基于的假设是 性别、年龄和住址等数据 决定我们的身份, 而不是基于我们的思想和行为。 我们获取了这些数据, 我们需要做好隐私控制, 并保证民众的选择权, 除此之外,我们需要弄清楚所做的假设, 采用的研究方法, 以及对结果的信任。 就像高中代数老师曾对我说的, 给我看看你的解题步骤, 因为如果我不知道你的步骤, 我就不知道你落下了哪些步骤, 如果我不知道你问了些什么, 我就不知道哪些问题你没有问。 我们应该问自己这个最难回答的问题, 这真是值得的: 数据真的显示出了这个结果, 还是这样的结果让我们感觉更成功、更舒服? 因此,健康媒体合作实验室 在该项目结束时发现, 谈论那些很形象、令人不安的广告的推特中, 有87%的表达出了恐惧, 但他们做出这些广告让人戒烟的结论了吗? 没有。这是科学,但不是魔法。 因此,如果我们想要激发 数据中潜在的能量, 我们没必要盲目地 游走于奥威尔所谓的极端未来, 或赫胥黎所谓的琐碎的未来, 或两种思想的杂糅。 我们需要做的就是, 积极进行批判性思维, 并学习健康媒体合作实验室的做法, 就像超级英雄电影里说的那样, 力量用在行善上。 谢谢。 (掌声)