大数据背后,是谁在监视我们的生活?

2024-11-18 8:05:07 生活服务 admin

一位Android App开发人员曾试图向女友解释他几乎无所不能的工作:App安装后,他可以获得大量授权,推断数据中的人做什么、经常去哪里、毕业于什么学校,以及他们拥有什么。兴趣爱好,是否已婚,是否有外遇,是否有房,是否有车,是否外出度假还是宅在家里,甚至可以通过阅读银行通知短信来猜测自己的实际收入。有时,为了顾客的需要,他还得揣摩人心,剔除伪君子。比如,如果手机上下载了一款高端金融APP,但打开频率几乎为零,那么这个人的标签要么是因为不小心下载了错误的软件,要么是“自命不凡”。 “…………

文丨李斐然

编辑丨赵瀚墨

我们的故事

北京有很多不为人知的故事,而最容易被忽视的事实之一就是,这里总有人比你更了解你。一些周一早高峰挤在地铁里看财经新闻的人,周五下班途中会收到系统推送给他们的八卦新闻,因为算法知道这是他们想要的内容。目前看到最多。人脸识别公司知道我们每天晚上什么时候卸妆、什么时候敷面膜、周末早上几点上床睡觉,因为在这些时候,人脸识别的通过率会突然下降。

现实世界中,性别只分男性和女性,但阿里巴巴集团前副总裁车品觉表示,阿里巴巴曾经有18个性别标签。它知道一些账户是由男性用户在白天持有,但在晚上使用的。是女的。判断是基于用户信息、浏览过的产品类别、对话中使用的标题以及我们甚至可能不知道的访问习惯——点击屏幕的强度、频繁输入的拼写错误、浏览器窗口是否喜欢以某种方式打开。新窗口,或重复使用前进和后退键。正是它们告诉机器此刻谁在屏幕上滑动产品页面。

在大数据中,我们有极其真实的群体肖像。因为我们对手机非常诚实,并且总是说实话。

世界上唯一知道这些秘密的人是你和机器另一端的数据科学家。在机器语言中,我们不仅仅是一个名称、一个地址和一串设备标识符。它每秒监控400多个变量并记录每一个行为轨迹。

57 岁的安德烈亚斯·韦根德 (Andreas Weigend) 知道无数这样的故事。他出生于德国,最初在著名的欧洲粒子物理研究所(CERN)研究上帝粒子。然而,2002年,他选择投身大数据领域,成为亚马逊首席科学家。后来,他担任阿里巴巴的数据顾问和人力资源顾问。作为人网早期外部投资者,他还为摩根大通、汤森路透、沃尔玛、AT&T等机构提供数据咨询。

他教会了机器一种理解人类的方法:在学习了用户的地址后,它还需要捕获该地址5公里范围内的书店分布,因为这决定了用户在亚马逊上购买书籍的可能性以及在什么情况下购买书籍他会买一本书。这个原理后来被应用到阿里巴巴的数据分析实践中,所以当淘宝知道你家步行5分钟内有一家超市时,它不会频繁地给你推荐盐酱醋,而是会看到你的搜索记录,如果你得知自己皮肤敏感,并且15分钟内商场里没有你习惯的护肤品,那么这些产品就会出现在你的屏幕上。

魏思安将数据分析师的日常工作描述为“人性实验”。就像科学家通过实验探索物质的本质一样,数据分析师通过程序研究人类的行为特征。技术改变了人类的物理概念。定义我们的不仅仅是我们的账户和密码,还有我们的爱好、情感和行为习惯。无论我们如何在互联网上伪装自己,用新名字、新头像,机器总能轻易识破。数据中记录的习惯是我们身份的另一种定义。

这些故事让他兴奋,同时也让他不安。魏思安告诉《人物》杂志,“我可以看到,在过去的十几年里,我们的生活已经被科技打乱了。但科技真的让我们变得更舒服了吗?我没有答案。”

在数据的世界里,我们在手机上的一举一动都在成为机器学习的素材,训练人工智能更好地理解人性。那些过往深刻而深刻的人生命题——我们是谁?成为好朋友意味着什么?我们会选择什么样的生活?答案可以在搜索记录、社交网络聊天记录和手机传感器中找到。

截至2018年第一季度,每月有超过10亿人使用微信和微信,6.17亿人在淘宝上购物,全国搜索引擎用户数量达到6.4亿。他们一直在创造新的海量数据,也在圈定极其精确的群体。人像方面,机器正在一步步逼近清晰的人性画面。数据是这个时代最特殊的商品。它的生产成本几乎为零,却造就了无数的科技独角兽、日益强大的上市公司、数十亿的行业效益。

大数据越来越了解我们,但很少有人知道我们所做的事情可以让我们成为广告商的商品、性格分析的样本、控制我们的一举一动,甚至预测我们未来的轨迹。

“隐私”

不止一位数据科学家相信隐私已经是一个“在算法上站不住脚”的问题。我们知道我们正在共享数据,但大多数人不知道我们正在共享什么,更不用说这种共享意味着什么。

听分析师描述数据挖掘过程就像见证一场悬疑推理,只不过这一次,福尔摩斯生活在大数据中。一切都从手机App安装软件中的SDK开始。这是App中安装的软件开发工具包,内嵌统计分析工具,实时收集用户信息。当然,这是经过您的授权和同意的,这是您可能从未仔细阅读过的用户协议。

从应用程序下载到手机的那一刻起,推测生活的尝试就开始了。仅从安装过程中捕获的硬件设备信息来看,App已经对你有了一个大概的印象——如果一部手机在一个月内连接同一个星巴克WIFI 10次,并连接位于写字楼的同一个WIFI 20次次,公共区域WIFI,连接家庭WIFI 30次,加上这些WIFI的地理位置,以及WIFI名称中的关键词,那么,一条几乎清晰的生活工作路线轨迹,就得到了。

在学者的论文中,这被描述为一个“数据失控”的时代。没有人可以控制自己的数据,而我们的数据无时无刻不在被监控。

然而,真正处理数据的人却没有这样的感觉。人们担心自己的个人信息被泄露,例如姓名、电话号码和地址。在业界,工程师们给出了隐私最简单的定义——隐私是指不允许自由流动的数据,比如法律禁止交易的身份证号码、个人信用报告、医疗记录等。它们只能永久保存,不能随意读取。事实上,Apps 收集的信息越来越受到限制。比如iOS 10之后的系统已经禁止了很多设备硬件信息的读取,Android系统也在逐渐限制软件能够获取的用户信息的范围。

然而,对于公司来说,上述信息固然重要,但更有价值的是其他数据——你的偏好、兴趣、生活方式、行为习惯——而这些数据在很多人的观念中并不被认为是隐私。

“大数据可以做很多事情,通过合理的分析来解释世界。最好的是这些东西根本不涉及隐私。”大河在一家公司的数据相关部门工作。她认为法律禁止收集和交易隐私。身份证号码、手机号码、户口地址等个人身份信息,但她的工作完美避开了这些。 “在我刚才分析的画像中,我根本不知道他是谁,我看到的只是设备。比如我在回龙观可以看到一个Android设备。他早上9点去望京,9点回来pm 他的轨迹我什么都知道,但我不知道他是谁,所以是匿名的,而且非常准确。”

一位不愿透露姓名的数据工程师表示,如果有问题,那就是黑市私自出售个人身份信息。购买一个人的信用报告要花20元,购买高净值个人的打包数据要花几百元。这些与社交信息相关的东西都是隐私,需要管理。但互联网公司收集的是“浅层信息”,这并不重要。

小乔曾就职于一家互联网公司,主营业务是“大数据分析”。她的工作是利用公司通过大数据获得的用户画像来组织线下营销活动。她说,她并不那么担心自己的习惯被发现,因为根据她的经验,很多习惯都是“用来骗人的,而且也不准确,还怕什么?”尤其是在北上广,大家差别这么大,用户画像根本就不管用,所以在三四线城市,就用个噱头来忽悠人吧。

类目属于服务生活的什么_类目属于服务生活吗_生活服务属于什么类目

“(我们)可以获得各种信息,但没有任何用处,我们也懒得看。”一位不愿透露姓名的程序员表示,“互联网公司让你感到害怕,只是因为你在应用程序中,并且不隐藏你是谁。人,App就考虑到了这一点——你不会出来,但你会偷偷在淘宝上搜索润滑油;你不会讲黄色笑话,但你仍然会在App上点击翘臀美女;你对外攻击版权侵权,但当你看到四位数价格的正版软件时,你仍然搜索盗版下载……”

真实人民币

对于拥有海量用户数据的大公司来说,真实的人像就等于金钱,因为他们可以找到非常精准的目标用户。例如,如果商家想销售5岁以下儿童的婴儿车,他们可以提供“5岁在家”。订单期间未购买过此类母婴产品的18岁以下儿童的用户群体。他们建立了一个包含大量用户偏好、兴趣、习惯和其他数据的数据库,出售给品牌和广告商:这些消费者数据也是一种资产。您知道他们习惯购买什么以及何时想要购买。它可以预测未来。同样,直观地看到未来可能的收入也不是一些估计的指标或指数,而是“真实的人民币”。

这可能是广告商最喜欢的时代。 Facebook 曾经推出过一种经过验证的相似算法。例如,如果一家公司想要销售啤酒,只需要提供100个购买过这种啤酒的用户群体。数据会将他们视为种子用户,并找到 500 个与种子用户相似的其他人。他们有相似的兴趣、爱好和行为习惯。他们之前可能没有买过啤酒,但基于行为特征的相似性,这个相似的群体很有可能在推送后立即转化并购买啤酒。

并不是每个人都对这些“隐私”开放无动于衷。吴山就职于一家行业排名靠前的互联网公司,利用大数据做算法推荐。每天工作时,他可以在App上看到所有用户的行为轨迹信息,包括电话号码、地址、搜索记录、每个屏幕的交互行为等。这是他工作的一部分,但他说这也让他感到不安。

“虽然他们说数据公开开放,但我还是觉得这个数据太开放了,没有得到很好的保护!比如内部员工可以在App上查看用户的行为和习惯,App收集用户信息的时候“应该做什么?在我看来,被收集和不应该被收集的内容都被视为隐私。应该有某种机制来保护吧?”巫山说道,“但不知道有没有行业标准。现在我完全靠自律。如果我能在任何我想要的地方看到它就好了!”

据《财经》此前报道,国内个人信息泄露数量达55.3亿条,平均每人泄露4条相关个人信息。这些信息最终在黑市上反复出售,直到其价值耗尽。其中,80%的数据泄露来自企业内部,黑客仅占20%。去年6月,广东苍南警方发布通报称,苹果公司国内员工涉嫌非法获取苹果手机相关个人信息,包括用户注册苹果账户时填写的个人信息。涉案22人中,有20人来自苹果国内直销公司。并曾在一家苹果外包公司工作。每条售价从10元到180元不等,至少有超过20万条个人信息被非法倒卖。

不久前,一名Facebook安全工程师因吹嘘自己在网上与女性聊天时可以看到所有人的消息而被解雇,并称“我是一名职业跟踪狂”。一位豆瓣用户发帖称,她与前男友分手后,不断遭到跟踪和骚扰。前男友利用电子商务应用程序中的登录漏洞找出了她的家人、最好的朋友和朋友的姓名、地址和电话号码。然而,即使她抱怨了一番,最终也没有阻止跟踪者继续登录。

现在,如果买东西需要填写注册表,或者下载新应用程序后需要关联用户信息,吴山就会感到不舒服。他说这可能是他的“职业病”。

在网络上,魏思安做过的最疯狂的人体实验,就是关于他自己的。从2006年开始,他主动在自己的网站上公布了自己的所有联系方式。在那里,任何人都可以看到他的实时地址、电话号码、电子邮件、行程、工作安排、即将起飞的航班号和座位号。他公布了他在旧金山和上海的地址,详细到楼层和房间号。

这和他父亲的经历有关。魏思安的父亲因被诬陷为间谍,被强行监禁六年。后来,魏思安在查看父亲的个人档案时,意外发现,即使父亲出狱后,安全部仍持续对他进行监视,甚至还为自己作为儿子建立了档案,收集信息。

这段经历极大地影响了他对数据的看法。 “我们不能抱有天真浪漫的想法,认为我们可以拥有隐私。我亲眼目睹了数据是如何对待我父亲的。我的父母曾经一无所有。我们不应该天真地认为事情不会再发生了。”

“我把我的联系方式放在网上,但如果有人要求我公开我的搜索历史,我肯定不会愿意。”他表示,在某种程度上,电话号码或地址并不是私人信息。您的朋友知道,您的同事也可能知道,但搜索记录中透露的个人喜好和习惯是非常私密的个人信息。

一位Android App开发人员曾试图向女友解释他几乎无所不能的工作:App安装后,他可以获得大量授权,推断数据中的人做什么、经常去哪里、毕业于什么学校,以及他们拥有什么。兴趣爱好,是否已婚,是否有外遇,是否有房,是否有车,是否外出度假还是宅在家里,甚至可以通过阅读银行通知短信来猜测自己的实际收入。有时,为了顾客的需要,他还得揣摩人心,剔除伪君子。比如,如果手机上下载了一款高端金融APP,但打开频率几乎为零,那么这个人的标签要么是因为不小心下载了错误的软件,要么是“自命不凡”。 “…………

这些猜测并不完全准确,也不涉及身份信息,但却得罪了他作为普通用户的女友,并对他发怒:“你为什么这样?为什么你想看我们这么多的数据?”是谁?是你的老板要求你获得这些授权的吗?”

对抗

在技​​术世界中,边界是最难讨论的话题之一。大多数公司都一再强调,虽然我们收集了大量数据,但我们非常重视隐私,绝不会泄露您的姓名。事实上,很多大公司都是这么做的。他们有非常严格的内部数据保护措施。例如,微信有一个相对复杂的ID系统。系统为用户提供了一个唯一的ID,但第三方开发者无法获得这个唯一的ID。 ,即使是同一个用户,不同公众号下第三方开发者采集的ID也完全不同,这彻底杜绝了公众号之间用户数据的随意买卖。

负责用户挖掘的微信斑马系统仅支持1万人以上的人群画像分析,从而实现“分析一群人而不是分析一个人”。它还在分析过程中主动控制准确性。例如,在分析用户地址时,仅定位位置。当你去某个社区时,不再根据气压传感器定位高度,而是定位建筑物和楼层。

阿里巴巴一位技术总监在接受媒体采访时表示:“数据肯定是在往控制越来越严格的方向发展,收集信息的目的其实是为了更好的提升用户体验,所以一个基本原则是,这个信息应该得到“从产品改进的角度来看,比如对于某些App来说,获取WIFI信息的目的是为了挖掘用户的社交关系,这感觉有些越界,但对于金融、支付类App来说,知道WIFI地址就可以快速判断是否存在。这是用户常用的地址以及交易是否可能存在欺诈。可以有效防范金融风险。

不过,尽管他花了两个小时反复解释现有的隐私保护有多么严格,但临走前,他还是忍不住补充道:“但是,最近网上有一个心理测试,点击图片生成我建议你不要点击你自己的照片,因为它们背后通常会收集很多信息。”

这款看似无害的休闲应用,或许不会直接窃取手机号、身份证号等身份信息,但在你点击授权、进入游戏的那一刻,它就能轻松全面获取你的社交关系和上网行为习惯。 。今年3月,Facebook被曝隐私丑闻,涉及严重数据隐私滥用,影响8700万人。这些数据包括用户的社交关系、兴趣和偏好,例如记录和其他个人信息,而这一切都始于类似的心理测试。剑桥分析影响了这些用户在 Facebook 上收到的推送,从而影响他们对美国大选候选人的态度,最终帮助特朗普当选。这些数据也被复制了“未知多少次”,甚至可能被存储。在俄罗斯。

并不是说没有技术解决方案来应对这种数据危机。在英国,有专门致力于保护个人隐私的公共机构,这些机构直接向英国议会报告。它提出了一个数据控制者注册系统,要求每个处理个人信息的组织都向信息专员办公室注册,否则将构成刑事犯罪。许多公司也有谨慎的数据使用理念。谷歌会将用户的姓名、账号、联系方式、地址等信息与行为数据完全分离,不会将两者关联起来使用。雅虎将有专门的研究人员来定义实践中数据收集的隐私边界。

许多数据科学家在论文中发表了他们详细设计的隐私保护对策。有人将去中心化的信息流控制和差分隐私保护技术应用到云计算中。还有人通过混淆技术全程加密用户隐私。另一种有效的操作方法是创建噪音,根据用户历史创建等比例的行为噪音。这样,试图解读用户行为的服务提供商将很难区分哪些是用户的真实需求,哪些是系统产生的噪音,从而保护了用户的真实隐私。 。

然而,在真正的大数据前线,这些对策还没有付诸行动,战斗就已经失败了。技术理想的敌人其实比想象的更原始——严格的规则背后,还有那些不遵守规则的人。

程璐从美国留学回来后,在国内一家交友社交平台工作,负责大数据处理。当运营同事想要进行营销活动时,他们需要查看用户数据。他们希望看到用户最近在聊天什么,然后根据用户的喜好开展有针对性的活动。 “理论上,这也是业务需求,他要样品,我不介意。”程璐表示,聊天记录是加密的,他很快采样,分离出溯源信息,并对用户信息进行脱敏。但运营同事不愿意,要求看完整数据。

全数据是什么概念?这是App上用户的所有数据。它可以非常准确地描述用户。他的身份、出身、爱好、行为习惯,甚至日常的喜怒哀乐,都可以从行为痕迹中推断出来。然而,这是一个隐私问题。巨大的挑战。程璐试图向对方解释,如果只是为了营销,使用脱敏样本就足够了。无需查看完整数据。

类目属于服务生活的什么_类目属于服务生活吗_生活服务属于什么类目

但令人惊讶的是,这一提议并未得到理解。运营人员不同意,公司的CTO不同意,甚至CEO也不同意。他的一位同事说:“我很惊讶这个领域的人仍然有这样的想法。”另一位同事评价他,“你怎么能在中国生活,心态这么不稳定?如果你知道你的房子、车子、保险、信用卡、婚姻、酒店入住、户口信息、工作信息等都是每天被各个公司的销售人员买卖上百次,你还觉得怎么样?”

然而,对于程璐来说,这违背了他自己的技术理想。 “这就像用手一页一页地打开别人的日记供别人阅读。”他问:“如果这是你的日记,你会写吗?”

最终决定数据命运的,是CEO轻描淡写的一句话:“没什么,给他吧!”

程璐将所有数据交给了业务部门,同一周,他就辞职了。 “一半的原因是这件事,路变了。”在这里,他还是要时不时的面对数据交易,而且还会有大公司。销售人员带着报价单来找他洽谈合作。表格上的每一类用户组都有一个大概的价格。热爱旅游的人、每天点外卖的人、每天玩游戏4小时以上的人,每一组都有对应的号码。的广告商喜欢它。所以,只要把用户特征提炼出来,就有机会卖钱。这是一笔大生意,却让他感觉很不舒服。

现在,他在一家外资游戏公司工作。他选择新工作的理由有很多。其中之一是,在现在的环境下很难找到一家不越界的公司,所以他应该找一个在收集社交数据方面不那么强的地方。他说这会让他在工作时感觉更舒服。

魏思安表示,应对隐私危机最有效的办法就是严厉惩罚。 “我们不能天真地期望数据公司有足够的上进心来为我们维护数据的隐私。对于这些公司来说,惩罚是他们唯一理解的语言。”

数据未来

我们面临的数据未来是,人​​可能比想象的更容易预测,算法可能比我们更了解世界。

2008年9月15日,美国雷曼兄弟宣布破产,引发次贷危机。第一个注意到这一点的人是 Linkedin 的数据科学家。他们注意到,9月14日明明是周末,但网站数据却非常活跃。人们不断地联系别人找工作、更新简历、发送信息,而所有这些行为都来自雷曼兄弟的员工。

借助优化的技术,您现在甚至不需要成为专业人士即可看到真相。就在今年年初,健身记录软件Strava的用户发现,通过仔细查看该应用提供的跑步热图,他们可以轻松推断出美军驻阿富汗军事基地的具体位置。因为它实时跟踪用户位置数据并以突出显示的形式显示在地图上。在当地用户很少的战乱地区,每天一起跑步的美国士兵在热力图上圈出了极其明显的行动路线,包括基地位置、执勤时间和巡逻路线在地图上清晰可见。

2012年,美国罗切斯特大学教授Adam Sadilek和微软实验室工程师John Krumm联合发布了他们的研究成果。 “现在有很多研究可以预测人们的未来。他们的论文写道,旅行通常会预测人们一小时后会去哪里。“相反,我们着手解决更开放的问题,即预测人们从现在起几个月甚至几年后会去哪里。在哪里。”

他们在 32,000 天内收集了 307 个人和 396 辆车的 GPS 数据,建立了一个准确率达到 80% 的模型。在他们的描述中,未来的营销广告甚至可以像这样准确:“需要理发吗?4天内,你会出现在这家沙龙附近,你可以得到5美元的折扣。”

大河说,有一次数据团队私下聊天。聊天的时候,突然有人问,一个人的一生可以用大数据来分析吗?

结果几人就开始愉快地推演,很快就把自己吓到了。在理想的世界里,可以预测一个人从出生到死亡的每一个阶段——他出生在哪里,他的家庭背景是什么,他父母的收入水平是多少,他的童年性格和行为习惯,结合当地的教育水平指数,除了从新闻中提取的实时经济波动曲线外,很多被认为意想不到的事情更多时候只是计算出来的概率。

讨论结束时,有人喊道,活着还有什么意义?折腾了半天,生命只是数学概率问题吗?

事实上,这也是一些数据科学家的愿望。他们希望打通各个环节的数据,获取全球大数据,打开“上帝视角”,最大化数据挖掘。在乐观者的描述中,那将是一个美好的世界。机器会根据大数据为我们选择性价比最高的产品、最合适的医生、最好的路线。以后不会再出现堵车的情况,大家的操作也会更好。轨迹会实时调整配置,一路绿灯……

然而,你也会遇到另一种可能:你的健康数据显示你的胆固醇过高,需要运动和节食。然而,你在购物车里下了一份油炸食品的订单,签收的人是你,运动传感器显示,你没有去跑步,而是坐在沙发上看电视剧。因此,潜在的招聘人员判断你的性格带有“意志薄弱”的标签,并打算拒绝你的求职申请。

这是大公司的技术负责人曾经面临的真实选择。在他的故事中,一位数据研究员找到他,希望他能够开放数据,利用用户的购物数据来辅助招聘决策。但那一次,他选择了放弃。原因之一是跨度太大,精度无法保证。还有一个原因是,这样做让他觉得自己跨越了道德界限。 “有些事情是大数据做不到的。”

在大数据的世界里,有些人仍然认为世界上总有一部分人性是数据无法解释的。魏思安表示,他还是更相信缘分和机遇。 “我不想被定位、被分割、被转换、被分析,我不想成为一个被大数据模型定义的人。”

尽管他不再是物理学家,但他仍然坚信许多物理定律,例如能量守恒定律和关系逆转。大数据最好的地方不是最终发现揭示人性的完美模型,而是不断探索人性的过程。

他表示,科技最美的地方在于它可以提供无数的可能性。技术的挖掘用户数据可能会感到违法,但同样,它可以用来揭示已关闭信息,使用技术破坏其封面并使数据完全透明并向公众使用的官僚机构和组织。现在的关键是进行公开讨论并找到这个边界。

无论如何,我们仍然生活在这个世界上被数字化包围的世界,不愿意放手。统计数据显示,人们在手机上扫描平均每天2,617次。在他们无法入睡的晚上,有23%的受访者将用手机掌握手机睡觉,其中3%的受访者强调他们必须每天握住手机。入睡。

当光纤向后传输数据时,没有声音,并且不会提醒您这里发生的事情。在更好的规则到来之前,大数据的世界将是没有警报器的无声战场。就像在这个城市的星期五晚上的高峰时段,地铁上被忽视的八卦一样,未开放的高端财务应用程序,引号上印刷的个人喜好以及苦恼,吵架,麻木和苦恼,麻木和的人类为之奋斗。像故事一样,它们仅存在于将一串角色与另一个角色连接在一起,而人们很少知道。

(本文中的一部分数据来自公共数据,例如CNNIC,Quest Mobile,TalkingData,Umeng,Nielsen和National Statistics局,以及上市公司的公共年度报告。 Yinmi也为这篇文章贡献了。

您想看的:

发表评论: