旗下微信矩阵:

6000字长文详解:数学天才如何利用交友网站找到真爱

每个人都试图创建*版本的个人资料,只不过他用数学知识做得更好。“被拒绝的感觉很不好受,有了计算机算法的支持,这位数学博士在约会游戏中占据了主动地位。”
2014-01-24 14:36 · 腾讯科技  Kathy   
   

6000字长文详解:数学天才如何利用交友网站找到真爱

  凌晨三点,在加州大学洛杉矶分校(UCLA)数学系大楼五楼的一个拥挤小隔间里,只有一只灯泡和一台计算机的屏幕发出光亮。克里斯·麦金利(Chris McKinlay)正在为他的博士论文《大规模数据处理和并行数值方法》跑程序。计算机发出嘎嚓声,他点击打开第二个窗口,检查了一下他在交友网站OkCupid的收件箱。

  约有4000万美国人使用Match.com、J-Date和e-Harmony等交友网站寻找浪漫恋情,35岁的麦金利就是其中之一。他身材瘦高,头发凌乱,自从九个月前跟前女友分手之后,他就一直都在寻找新恋情,但迄今为止都是徒劳无果。

  OkCupid号称可以用算法找到跟你匹配的约会对象,麦金利已经向数十位匹配度不低的女性发送了私信,但大多石沉大海。只有6个人跟他见过面。

  OkCupid的运作方式

  2012年6月的那个清晨,当麦金利的编译器在一个窗口中显示机器代码,他的交友账号在另一个窗口中默默发呆时,他突然意识到自己做错了一件事:他之前就像其他普通用户一样使用网上交友服务。这时他觉得,自己应该像一个真正的数学专家那样去寻找约会对象。

  OkCupid是哈佛大学数学专业的学生在2004年创建的,它最初吸引用户的地方是可以使用算法来匹配会员。会员需要做大量的多项选择题,这些问题涵盖了包括政治、宗教、家庭、爱、性、智能手机在内的方方面面。比如:

  “以下哪项最有可能吸引你去看一部电影?”

  “宗教或神对你的生命有多重要?”

  问题总共有数千个之多。平均而言,一个用户会挑选其中350个问题来回答。此外用户还可以指定只接受潜在伴侣的何种回答,并用打分的方式说明这个问题对自己有多么重要:0代表“不重要”,5代表“必不可少”。

  然后OkCupid的匹配引擎就会使用这些数据来计算两个人的匹配度。百分比越接近100%就越匹配。100%表示你们是灵魂伴侣。

  麦金利的问题

  麦金利跟洛杉矶女性的匹配度简直糟糕透顶。因为OkCupid算法所使用的问卷问题,仅仅是双方都选择回答了的问题,而麦金利在选择回答哪些问题时比较随性。事实证明,他选择回答的这些问题很多人都不会选。

  洛杉矶大约拥有200万女性,其中约有8万人使用OkCupid交友服务。但是查看一下麦金利的匹配列表,只有不到100名女性跟他的匹配度达到90 %以上。在交友网站上,匹配度就相当于可见度,麦金利的可见度如此之低,跟鬼魂也差不多少。

  麦金利意识到,他必须增加跟他匹配度在90 %以上的女性人数。如果可以用统计抽样来确定哪些问题对他喜欢的那类女性来说很重要,他就可以修改自己的个人账户资料,老老实实地回答这些问题,不再去操心其他问题了。这样一来,可能适合他的每个同城女性都会出现在匹配列表里,而不适合他的女性一个都不会出现。

  从中文系到数学系

  对于一名数学专家来说,麦金利的经历有些不同寻常。他在波士顿市郊长大,2001年从明德学院毕业,获得了中文学位。当年八月,他在纽约做兼职,帮助世贸中心北楼第91层的一家公司把中文翻译成英文。五周后9.11事件发生了,*架飞机在上午8:46撞上世贸中心北楼。幸而麦金利那个时候不当班,正在家睡觉。

  “自那之后,我问自己,我真正想做的事情是什么。”他说。一位朋友将他招进了著名的“麻省理工21点小组”的一个分组,在接下来的几年中,他在纽约和拉斯维加斯之间飞来飞去,靠算牌赚到了6万美元的年收入。

  “麻省理工21点小组”由麻省理工学院和哈佛学生于1979年组建,曾多次打败拉斯维加斯和大西洋城的众多赌场。Blackjack又称21点,是各地赌场最热门的牌桌项目之一。这在很大程度是因为21点并不完全是碰运气,而要求玩家拥有对数字的敏锐反应、娴熟的算牌技术和沉着冷静的心理。

  这段经历激发了他对应用数学的兴趣,他开始攻读数学硕士学位,然后又继续读博。“数学系的学生在很多情况下都可以用到自己的专业,”麦金利说。“比如玩一些新游戏,‘三张牌牌九’之类的,然后回家写一些代码,找出一个策略来打败它。”现在,他要为了爱情做同样的事情。

  用假账户搜集数据

  首先,麦金利需要数据。就在那天凌晨,他的论文任务继续在另一个窗口里跑的同时,他设置了12个OkCupid假账户,并编写了一个Python脚本来管理它们。这个脚本会搜索麦金利的目标人群(25至45岁之间的异性恋和双性恋女性),访问她们的网页,并在她们的个人资料里搜集所有可用信息:种族、身高、是否吸烟、星座,所有一切。

  为了获取问卷数据,他必须做更多的侦查活动。在OkCupid上,只有当你自己回答过某个问题时,你才可以看到别人对这个问题的回答。于是麦金利编写了bot机器人来随机回答每一个问题(假账户的目的不是用来吸引约会对象,所以它们是怎么回答问题的并不重要),然后把目标人群的回答搜集到自己数据库中。

  麦金利满意地看着机器人忙忙碌碌。但是,在搜集了约1000份个人资料之后,他遇到了*个障碍。 OkCupid采用了一个系统来防止这种数据收集活动:它可以轻而易举地发现这种连续、快速的活动。麦金利的机器人一个接一个地被禁了。

  克服*个障碍

  他必须训练这些机器人,让它们的活动显得有人味。

  麦金利找到了他的朋友山姆·托里西(Sam Torrisi)。托里西是个神经学家,最近跟麦金利进行了“技能交换”:他教麦金利音乐理论,麦金利教他高等数学。

  托里西也是OkCupid的用户,他同意让麦金利在自己的计算机上安装间谍软件,跟踪自己使用这个网站的方式。有了这种数据,麦金利就可以模仿托里西的点击和打字速度给机器人编程了。

  麦金利从家里搬来了第二台计算机,把它接到数学系的宽带上,让机器人每天24小时不间断地运行。三周后他就从全美各地2万名女性用户那里搜集了600万条问题和回答。

  麦金利现在一头扎进了这些数据,完全把博士论文当成了副业。本来他就已经常常在小隔间里过夜,现在他几乎不回公寓了,完全搬进了这个小隔间。到了睡觉的时候,只要在办公桌上铺上薄薄的床垫,就可以躺上去了。

  女性用户的七种类型

  麦金利的计划要想奏效,就必须找出问卷数据中的规律——根据数据的相似性,把女性分为大致几个类型。

  贝尔实验室(Bell Labs)有个名叫K-Modes的算法,最早是在1998年投入使用,用来分析病变的大豆作物,它可以把具有相似性的数据凝结在一起。麦金利对它做了一些微调,以便调整结果的粘度。然后他用这个修改后的算法来处理搜集到的问卷数据。

  他调整刻度盘,发现了一个点,可以根据2万名女性的问题和答案,把她们分成七个在统计学上具有明显区别的类型。“当时我欣喜若狂。”他说。

  他给机器人重新分派了任务,以便搜集另一个样本: 5000名在过去一个月内登陆过OkCupid的洛杉矶和旧金山女性。然后他再用修改过的 K-Modes算法处理她们的问卷数据。结果这些女性用户也以同样的方式被划分成七个类型,证实他的统计抽样方法确实有效。

【本文由投资界合作伙伴腾讯科技授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。