如果你还记得网络时代的头十年, 网络是一个水尽鹅飞的地方。 你可以上网,你可以浏览网页, 当时的网站 要么是由某个组织的专门团队建立, 要么就是由真正的技术行家所做, 这就是当时情况。 但在二十一世纪初 随着社交媒体以及社交网络的兴起, 网络发生了翻天覆地的变化: 如今网络上大部分的互动内容 都是由大众网络用户提供, 既有Youtube视频,也有博客文章, 既有产品评论,也有社交媒体发布。 与此同时,互联网成为了一个有更多互动的地方, 人们在这里互相交流、 互相评论、互相分享, 而不只是阅读信息。 面谱网不是唯一一个你可以做这些事情的地方, 但它确实是最大的一个, 并且它用数字来证明这点。 面谱网每个月有12亿用户。 由此可见,地球上一半的互联网用户 都在使用面谱网。 这些都是网站, 允许人们在网上创建不同的角色, 但这些人又不需要有多少计算机技能, 而人们的反应是 在网上输入大量的个人信息。 结果是,我们拥有数以亿计人的 行为信息、喜好信息 以及人口数据资料。 这在历史上前所未有。 对于作为计算机科学家的我来说,这意味着 我能够建立模型 来预测各种各样的 你或许完全没有意识到的 与你所分享的信息相关的隐藏信息。 作为科学家,我们利用这些信息 来帮助人们在网上交流。 但也有人用此来谋取自己的私欲, 而问题是,用户并没有真正理解 其中用到的技术和技术的应用方式。 即便理解了,也不见得他们有话事权。 所以,我今天想谈谈 我们能够做的一些事情, 也启发我们 如何改善情况、让话事权回归用户。 这是塔吉特百货公司的商标。 我并不单单把那个商标 放在这个可怜的孕妇的肚子上。 或许在福布斯杂志上 你看过这么一则趣事: 塔吉特百货公司给这个15岁女孩寄了一份传单, 传单上都是婴儿奶瓶、尿布、 婴儿床的广告和优惠券。 这一切发生在 她把怀孕消息告诉父母的两周前。 没错,女孩的父亲很生气。 他说:”塔吉特是如何 在连这个高中女生的父母都尚未知情之前 就知道她怀孕了?“ 原来,塔吉特有成千上万的顾客, 并拥有他们的购买历史记录, 他们用计算机推算出他们所谓的“怀孕分数”, 不仅能知道一个女性是否怀孕, 而且还能计算出她的分娩日期。 他们计算出的结果 不单单是基于一些显而易见的事情, 比如说,她准备买个婴儿床或孩子的衣服, 更是基于其他一些事情, 例如她比平时多买了维他命, 或她买了一个新的手提包 大得可以放尿布。 单独来看这些消费记录 或许并不能说明什么, 但这确是一种行为模式, 当你有大量人口背景作比较, 这种行为模式就开始透露一些见解。 当我们根据社交媒体来预测关于你的一些事情时, 这便是我们常做的一类事情。 我们着眼于零星的行为模式, 当你在众人中发现这些行为模式时, 会帮助我们发现各种各样的事情。 在我的实验室,在同事们的合作下, 我们已经开发了一些机制 来较为准确地推测一些事情, 比如你的政治立场、 你的性格得分、性别、性取向、 宗教信仰、年龄、智商, 另外还有: 你对认识的人的信任程度、 你的人际关系程度。 我们能够很好地完成这些推测。 我在这里在强调一遍,这种推测并基于 在你看来显而易见的信息。 我最喜欢的例子是来自 今年发表在 美国国家论文集上的一个研究。 你可以在谷歌搜索找到这篇文章。 这篇文章总共四页,容易阅读。 他们仅仅研究了人们在面谱网上的“赞”, 也就是你在面谱网上喜欢的事情。 他们利用这些数据来预测 之前所说的所有特性,还有其他的一些特性。 在文章中列举了 最能够显示高智商的五个“赞”。 在这五项中 赞“炸扭薯”页面的是其中之一 炸扭薯很好吃, 但喜欢吃炸扭薯 并不一定意味着你比一般人聪明。 那么为什么喜欢某个页面 就成为显示你智商 的重要因素, 尽管该页面的内容和所预测的属性 与此毫不相干? 事实是我们必须审视 大量的基础理论, 从而了解我们是如何做到准确推测的。 其中一个基础理论是社会学的同质性理论, 主要意思是人们和自己相似的人交朋友。 所以说,如果你很聪明,你倾向于和聪明的人交朋友。 如果你还年轻,你倾向于和年轻人交朋友。 这是数百年来 公认的理论。 我们很清楚 信息在网络上传播的传播途径。 结果是,流行的视频、 脸书上得到很多“赞”的内容、 或者其他信息的传播, 同疾病在社交网络中蔓延的方式是相同的。 我们在这方面已经研究很久了。 我们己经建立了很好的模型。 你能够将所有这些事物放在一起, 看看为什么这样的事情会发生。 如果要我给你一个假说的话, 我会猜测一个聪明的人建立了这个页面, 或者第一个喜欢这个页面的人 拥有挺高的智商得分。 他们喜欢了这个页面,然后他们的朋友看到了, 根据同质性理论,我们知道这些人可能有聪明的朋友, 然后他们看到这类信息,他们中的一部分人也喜欢, 他们也有聪明的朋友, 所以这类信息也传到其他朋友那里, 所以信息就在网络上 在聪明人的圈子里流传开来了, 因此到了最后, 喜欢炸扭薯的这个页面 就成了高智商的象征, 而不是因为内容本身, 而是“喜欢”这一个实际行动 反映了那些也付诸同样行动的人 的相同特征。 听起来很复杂,对吧? 对于一般用户来说 它比较难解释清楚,就算你解释清楚了, 一般用户又能利用它来干嘛呢? 你又怎么能知道你喜欢的事情 反映了你什么特征 而且这个特征还和你喜欢的内容毫不相干呢? 用户其实没有太多的能力 去控制这些数据的使用。 我把这个看作将来的真实问题, 我认为,要是我们想让用户拥有 使用这些数据的能力, 那么有几条路径 我们需要探究, 因为这些数据并不总是 用来为他们谋利益。 这有一个我经常举的例子, 如果我厌倦了当一名教授, 我会选择自己开家公司 这家公司能预测这些特性和事物 例如你在团队里的能力 例如你是否是一个吸毒者或酗酒者。 我们知道如何去预测这些特性。 然后我就会把这些报告 卖给那些人力资源公司 和想要雇佣你的大公司。 我们完全可以做到这点。 我明天就能开始这个项目, 并且你对我这用使用你的数据 是一点办法也没有的。 这对我来说是一个问题。 所以我们可选的其中一条路径 是政策和法律这条途径。 某程度上我觉得这可能是最有效的 但问题是,事实上我们将不得不这么做。 观察我们目前的政治进程 让我觉得在美国 把一帮代表们聚在一起 让他们坐下来理解这个问题, 然后颁布有关知识产权法方面的颠覆性条例, 让用户掌控自己的数据, 这似乎是不可能的。 我们可以走政策途径, 这样社交媒体公司就会告诉你, 你知道吗?你的确拥有你的数据。 你绝对能自己决定要怎么去用。 但问题在于大部分的社交媒体公司 他们的盈利模式 在某方面取决于分享或挖掘用户的数据资料。 所以有时会说面谱网的用户并不是顾客, 而是产品。 那么你要怎样让一个公司 将他们的主要资产控制权 双手拱让给用户呢? 这是可能的,但我不觉得 我们能很快见证这种改变。 所以我认为我们得走另一条途径 一条更有效的途径, 一条更加科学的途径。 这途径是开发一种技术 让我们能够发展所有这些机制 来首先处理自己的个人信息资料。 而这很接近 我们必须做的研究, 要是我们想要发展这些机制 跟用户说明, “这样做你需要承担那样的风险。” 你在面谱网上点“赞” 或者分享一些私人信息, 就相当于增强了我的能力 去预测你是不是在吸毒 或者你在工作中是否顺利。 我觉得,这样做 能够影响人们分享的决定: 是要保持私隐,还是在网上只字不提。 我们也可以探究一些别的,例如 让人们去给上传的东西加密, 那么像面谱网这样的网站 或其他能获取信息的第三方来说 这些信息就隐秘很多,也少了很多意义, 而且只有上传人指定的用户 才有浏览的权限。 从智能的角度来看, 这是一个非常振奋人心的研究, 而且科学家们也会乐意去做这样的事。 这样在法律方面,我们就有优势了。 当我谈论到这个话题时, 人们提到的其中一个问题,就是 如果当人们开始把这些数据进行保密, 那些你研发的用来预测 人们特性的手段都会作废。 我会说,绝对会作废,但对我来说,这是成功, 因为作为一个科学家, 我的目标不是去推测出用户的信息, 而是提高人们在网上互动的方式。 虽然有时涉及到推测用户的资料, 但如果用户不希望我们用他们的数据, 我觉得他们应该有权去拒绝。 我希望用户能被告知 并且赞同我们开发的这种工具。 所以我认为,鼓励这类科学, 支持这些研究者们 这些愿意放弃部分控制,退还给用户们, 并且不让社交媒体公司接触数据的研究者们 随着这些工具的进化和提高 这一切意味着向前的发展, 意味着我们将会拥有一个 有素质有权力的用户基础, 我觉得我们都会同意 这是一个理想的前进目标。 谢谢。 (掌声)