Luis von Ahn这个神人

p19930693

前面的话

上次看了Fenng的一篇文章,大意说的是拥有较好的写作能力能够帮助自己更好的去思考,看了之后自己挺认同的。

我对自己的写作能力还是相当悲观的,你要知道我是那种高中写作文第一件事是找到800百字的位置,做个标记,然后开始了挤牙膏似的向那个『800百字』标记进军的人;大学每年的学年总结我都是照着标准格式来填的。本身就烂的底子再大学这七年的荒废,可想而知现在我的写作水平到了哪个境界了?所以我写这个博客有一部分原因也是想借此提高自己的写作能力。现在我决定用“随想”这个类别来写一些我觉得有趣、好玩的事情、东西或者人,涉及的领域可能五花八门。

恰好之前我在北京实习的时候,公司要求每个人每周都要进行一次分享,内容不限,当时轮到我的时候,我就向大家分享了一下Luis von Ahn这个人以及他所做的事情。那我今天就把之前的那个分享在充实一下,遂作此文。

验证码

看到CAPTCHA这个单词你熟悉么?嘿嘿,估计我们在编程的时候见过。其实它不是一个单词,它是一个缩略词,它是取 Completely Automated Public Turing Test To Tell Computers and Humans Apart 这几个单词的首写字母组成的(其实我也是刚刚搜出来的)。它翻译出来其实还挺拗口的,叫做全自动区分计算机和人类的图灵测试。

CAPTCHA其实在我们的网络生活中是随处可见,几乎每天都会碰到它。基本上我们所有的网站登录界面都会用到它。没错!它就是『验证码』。所以,验证码还有这个洋气的名字,叫做『全自动区分计算机和人类的图灵测试』。说到这个验证码,我们不得不来了解一下这个验证码背后的男人——Luis von Ahn。

验证码背后的男人

Luis von Ahn是一位卡内基梅隆大学的副教授,他其实最开始是研究加密的,后来开始研究如何区分在网络中人和计算机。

你可以想象一下在Luis von Ahn之前没有验证码的日子吗?买票的网站因为没有验证码几万张票被黄牛通过刷票程序全部买走?网站被人一次性注册几百万个垃圾帐号,然后产生各种垃圾信息,还可以操纵投票,使网站失去了公正性。

这还只是举了简单的几个例子。没有验证码的日子网络世界一片狼藉。Luis von Ahn觉得自己应该可以做点什么,要知道他是研究如何区分在网络中人和计算机的。上面两个例子就是因为有人使用计算机非法的对网站进行操作。

于是Luis von Ahn就想如果我能把人和计算机分开就好了,刚好他的研究里面就有一个方法可以区分计算机和人,那就是人可以用肉眼很容易的识别出图片里面的东西,但是计算机不能。Luis von Ahn就利用这个特性发明了CAPTCHA,也就是『全自动区分计算机和人类的图灵测试』,也就是『验证码』。

那么验证码是怎么让杜绝那些计算机对网站进行非法操作呢?很简单,首先计算机是可以像人一样去模拟登录的,但是当它碰到验证码的时候,计算机就傻眼了,它不认得这个验证码里面是什么东西,但是人的话就一眼认出来,然后输入验证码,就通过啦。就这么简单。人和计算机就被区分开来了。这个小小的发明为世界上的所有网站拦截了大部分的恶意注册和垃圾信息。

游戏还可以这样玩

其实在这之前 Luis von Ahn还有一个研究领域就是如果利用人在上网过程的中作用,说简单点就是如何让人在上网的同时不知不觉的还完成了一些不可思议的事情。于是他基于这个研究开发了一个图片游戏,这个游戏的玩法就是给任意随机的玩家A和B发送同一张图片,然后要A和B在有限的时间内对这个图片进行描述,当这个两个人的描述接近的时候就算这两个人匹配成功,然后获胜得分。

你能想到人在玩这个游戏的时候不知不觉的完成那些任务了么?就像上面说的那样,计算机是很难识别图片,但是人就可以很简单的识别图片,并对图片进行描述,于是乎,人们在玩这个游戏的时候不知不觉的就对这些图片进行了相当精确(因为是两个人同时在想,而且限时,而且必须描述相近)的标记。哈哈哈,想法是不是相当高明。认为这个想法高明的不止有你,还有当时的搜索巨头Google(谷歌)。Google当时就收购了这个游戏,并把这个想法应用到了Google的图片搜索。

验证码的升级版

Luis von Ahn在发明验证码之后,有一段时间变得很郁闷。为啥呢?因为他得到了一些数据——全世界的网民每天数据验证码将近2亿次,而每次验证码的输入时间将近10秒,这样算下来,每天网民要在验证码上面话费50万个小时。Luis von Ahn看着这些数字陷入了沉思,因为自己的发明,网民每天要多花这么多时间,有没有什么办法利用这些时间呢?

『有了!』Luis von Ahn突然在办公室跳起来,他想起之前被Google收购的那个游戏了,他知道该怎么做了。于是Luis von Ahn在CAPTCHA的基础上进一步改进,并把新的验证码叫做『reCAPTCHA』。『re』就是重新的意思嘛。

那么这次他是怎么改的呢?在我看来,Luis von Ahn的这次改进简直就是天才的想法。他的想法就是既然人们在输入验证码的时候有10秒钟的时间,那何不利用这10秒来讲那些古老的书籍或者图片的门牌号给识别出来。

这里需要说一下为什么要进行书籍的电子化。信息时代的一个特点就是要把我们生活的世界进行信息化,尽可能地把一切都可以索引。那么我们把书籍电子化就可以让人们更方便的去查找某一本书的某一句话,而不需要你翻烂一本书都找不到出处。

但是古老的书籍实在信息时代之前出现的,因此需要人为的进行电子化。但是电脑在扫描这些古老的书籍的时候总是错误率很高,根本不能用,这也是图书领域的一个大难题。不过,有了Luis von Ahn的天才想法,这些都不是问题。让我们来看看他是怎么解决这个问题的:

验证码升级版的验证过程

  1. 将古老书籍进行扫描(比如我们扫描《西游记》)
  2. 将扫描得到的图片分成单个词的片段 (将《西游记》扫描的图片按照单个字进行截取)
  3. 系统随机生成一个词A和扫描图片得到的词B组成一个验证码(假如随机生成的词A为『我』,扫描图片的词B为『俺老孙』,当然了用户是不知道『我』还是『俺老孙』哪一个是系统产生的)
  4. 当用户正确输入A之后就会被认为这是人在操作,那么B也就会被认为是人在认这个词(于是只要用户输入正确的A的答案为『我』,那么系统也会人会后面输入词就是扫描图片上面的词了)
  5. 然后B这个词就被人认出来了,以此类推,书就可以被全部认出来了。(以此类推,《西游记》就会被人在输入验证码的时候就被电子化了。)

说了这么多,咱们还是来看看真图(其中『morning』这个词是书里扫描出来的,后面这个『upon』是系统随机产生的,伪装的很像哈):
psb

升级版的验证码效果

那么这个升级版的验证码效果如何呢?当时是有35万个网站使用这个验证码,一天可以数字化1亿个单词,一年可以将250万本古老书籍电子化。这真的是一个功德无量的时候,它可以让老一辈的智慧通过电子化继续流传下去(用书的话说不定哪天就被烧了呢)。

这个天才的想法再次Google收购。唉,Luis von Ahn是名副其实的人生赢家了。

Luis von Ahn在我看来是一个闲不下来的人。按理来说,这个家伙的做的东西两次被Google收购,还是国际顶级名校的副教授,吃穿都应该不愁了吧。可是人家的境界还是比我不知道高到哪里去了,他貌似又看到了一些新的东西。

再次出发,Duolingo教你学外语

Luis von Ahn有一次给他带的研究生出了一个问题——如何让一亿网民免费来将互联网的主要内容翻译成各个主要语种。后来Luis von Ahn带着他的研究生开启一个全新的项目,叫做『Duolingo』,中文名叫做『多邻国』。

这是一个什么样的项目呢? 在Luis von Ahn看来,现在的互联网的优质内容还主要集中在英语,如果想让全球人民来无障碍来享用这些优质内容,这些优质内容必须被翻译成他们相应的语言版本。同时其中一大部分还是很有热情去学习一门外语,甚至花钱都可以。

于是Luis von Ahn又想到一个两全其美的办法让人们即可以免费学习最正宗的外语,还能提供专业级的翻译。他是这样想的:

  1. 首先那些提供优质内容的网站(比如纽约时报,英国广播电台BBC,美国有线电视CNN)会付费把他们要翻译的内容提供给『Duolingo』。
  2. 有了语料之后,『Duolingo』会在相关语种的语法专家的帮助下将这些内容分解成『Duolingo』的学习材料。这些内容会被分成简单的小句子,而且句子中的每个单词的意思都会给出。
  3. 有了这些单词的意思,『Duolingo』的用户就可以使用这些单词的意思翻译自己的语言版本,在这个过程中你的翻译还会被系统进行评价,通过即可获得积分和等级。

『Duolingo』里面的积分和等级代表了你的外语能力,你的积分和等级越高,你要翻译的东西越复杂。于是在整个过程中,你通过翻译学习了英语,同时你还帮助『Duolingo』完成了企业客户提供的语料翻译。

那『Duolingo』的效率如何呢?还是来看数据吧——将维基百科翻译成西班牙语:在十万用户的前提下,5周可以翻译完成;在100万用户的前提下,80个小时就可以了。多么神奇的一个工具呀。

如果你想体验『Duolingo』学英语(还可以学西班牙语、日语、韩语)的感觉,直接去豌豆荚下载吧 :http://www.wandoujia.com/apps/com.duolingo

总算结束了

不容易,总算接近尾声了。Luis von Ahn在我看来完全是一个优质偶像啊,你看发明了验证码,又改进验证码,让人们在输验证码的时候顺便帮忙把那些古老的书籍电子化,让人类的文明得到更好的传承。后来看到大家很多人都在学外语,他通过『Duolingo』为人们免费提供高效的外语学习平台,同时还帮助把互联网的优质内容翻译成其他语言版本,让更多的人享受更优质的内容。在我看来牛逼的地方在于他的两次创业成果都被Google收购,而且他还不满足,继续着自己的奋斗!

最后我想给大家推荐一下Luis von Ahn在TED的这个经典演讲,内容基本概况的他的主要工作内容,更重要的是他的演讲能力也很好,很会与听众互动,知道如何幽默地演讲。演讲链接地址

参考链接:

  1. Luis von Ahn 个人主页
  2. Luis von Ahn wikipedia
  3. TED 演讲

发表评论

电子邮件地址不会被公开。 必填项已用*标注