中国有句古话:三个臭皮匠顶个诸葛亮,是指三个才能平庸的人,若能同心协力集思广益,也能提出比诸葛亮还高明的计策,比喻人多智慧大。还有一个词叫做“众人拾材火焰高”具有相同的意味。现在,互联网的发展已经将人群的智慧变成了一个有价值的、可随需应变的资源。众人的智慧变得如此强大,如果能将这些智慧通过互联网连接起来,它自身就变成了一个重要的资源。
2011年,面对全球性的大失业现象,麻省理工斯隆管理学院的两位教授Erik Brynjolfsson和Andrew McAfee合撰《与机器赛跑》(Race Against the Machine)一书,提出了一种新的观点,随着技术的高速发展,人类正与机器形成一种对抗,而在这个对抗过程中,人类肯定会输,因为与机器相比,人类需要吃饭、睡眠和休息,有情感需求,厌恶重复性劳动。因此提出,未来我们需要转换思路,别与机器赛跑,应该与机器合作,适应机器,帮助机器,体现人类对机器的价值,这样人类才可以更好地与机器协同进化,而不是被机器所淘汰。
现在,如果我们将这种想法扩展开来,人的智慧不仅仅是自己互联,而且还可以与机器连接起来,建立一种合作关系取长补短,变成一个不可战胜的重要驱动力。这个重要的资源,美国卡内基梅隆大学(Carnegie Mellon University)的Luis von Ahn在其博士论文中引入了一个术语,叫人类计算(Human computation),指的是结合人类和计算机的优势来完成某个人类和计算都不能独立完成任务的分布式系统。同时,伴随着这个词的产生的,还诞生了一个大数据行业经常拿来说事儿的故事,就是我们现在网站登陆注册时所用到的“验证码”,其英文全称是Completely Automated Public Turing test to tell Computers and Human Apart(CAPTCHA,全自动区分计算机和人类的图灵测试)。最初的CAPTCHA图片是由机器生成的,控制程序也知道正确答案,其作用纯粹就是为了防止机器恶意自动注册和机器攻击,用于验证当前正在进行的操作是人类而不是机器。
坦率地讲,许多身份验证机制的产生,是人类与技术之间的内耗,比如机场安检的逐步升级,纯粹善良大众为少数坏人买单,消耗了大量的人力和物力。CAPTCHA显然也是如此。聪明的人总是不满足现状的,既然CAPTCHA消耗了广大网民的时间资源,那么能否利用这些“浪费”的资源做一些有意义的事儿呢?后来出现的reCAPTCHA就是在这方面进行的挖掘,它除了能更好地区分人和机器外,还能“顺便”为文献数字化做贡献。具体如何实现的呢?现在新的文字材料一般都有电子版,但计算机出现之前的大量书籍、报刊等书面资料没有现存的电子化版本,要将其进行电子化显然很有意义,但任务异常繁重。随着OCR的发展,文字自动识别的水平越来越高,但有些文献由于年代久远,字迹开始变得模糊、褪色、污损等,OCR无法识别。但是,这些OCR无法识别的内容由人工辨认却相对比较简单。reCAPTCHA系统中,验证码由两个单词组成,一个是系统设定并知道答案的“control word”(对照词),另一个是来源于OCR无法识别的“unknow word”(未知词),前一个用于验证用户是否有能力识别这些文字,如果答案正确,就认为用户对“unknown word”部分的回答也是可信的。为了增强可信度,同一个的“unknown word”会被分配给多个用户,然后综合这些用户的回答来判定这个疑难字符是否被正确识别了。reCAPTCHA系统以免费服务形式的形式提供给各网站,加速了文献数字化的工作。
这种形式,也有人称之为协同智能(collaborative intelligence)或众包(crowdsourcing)。各种服务现在正在虎视眈眈地看着这些人类认知的丰富资源供应,如维基百科、使命游戏(Games with a purpose)和亚马逊土耳其机器人(Amazon Mechanical Turk)。维基百科,尽管最初人们担心其准确性,但毫无疑问现在它已成为各种基本信息的关键资源。使命游戏中的ESP,专门针对在线玩家,他们在玩一个有趣的游戏过程中,可生成有用的数据(如图像标记)。众包市场的亚马逊土耳其机器人用于协调那些为获得报酬的工人来完成任务。
多邻国(Duolingo)是一个免费语言学习网站和众包文字翻译平台。其设计理念是,当用户逐渐学习课程时,同时也在帮助翻译网站上的内容或文件。这个平台推出后很快成为全球最受欢迎的外语学习神器,是唯一一款曾被谷歌Play Store和苹果App Store都评为年度最佳的教育类应用。也就是说,在线学习过程,也可以变成一种工作,相反,工作也可以变成一种学习过程,有些人在线工作的时候可以帮助其他人学习新的技能,这可能对未来的工作和教育产生变革性的影响。基于这种思路,在放射医学领域如何从x射线照片中识别肿瘤是一个非常重要的工作,但现在这样的任务,依靠机器视觉算法还不可靠,然而人类对此擅长。一个放射医生新手刚开始也是观察易于分类的照片进行训练的,而后达到一定的熟练程度后就可以应对更困难的情形,这种进步过程,既帮助了机器,也帮助了他人。
人类计算在科学研究上所体现的非凡成就,最引人注目的当属Fold it项目了。参与者被要求尽可能以最有效的方式折叠虚拟蛋白质。该目标是为了解决分子生物学一个最重要难题:蛋白质折叠是如何这般迅速和有效的?该项目开始后不久,就发现猴免疫缺陷病毒调节蛋白的三级结构,这个问题曾经困扰了该研究群体数十年,如果得到解决可能会找到应对艾滋病病毒的新方法。另外,宇宙动物园(Zooniverse)项目要求公民科学家确定月球上的环形山,帮助翻译旧船的行船日志,在天文图像中确定星系,并发现其他恒星周围的行星,都是利用众包来进行科学研究的重要案例。
信息科学建立在这些早期的成功上,证明推进人类计算系统的潜力可以模拟和解决一些经济、环境和社会政治系统交叉的奇怪问题(那些挑战传统解决问题的方法)。从上我们看到,在过去几年里,由于众包市场和一些巧妙应用程序的出现,人类开始实现一些之前不可能完成的任务。通常情况下,这样的应用涉及到人类需要利用人类的智慧执行某些形式的计算,如图像分类、翻译、蛋白质折叠这些问题对目前最先进的人工智能算法来说也是一个几乎难于完成的挑战。
今天,由于计算机科学家、众包先驱者和远见者的努力,创造了研究人类计算的路线图,使我们能从中得到各种答案。人类计算系统已经非常成功地解决一些复杂问题,从确定螺旋星系到组织赈灾。而且,只要人类认知可以在全球范围内有效地利用,他们的潜力仍将变得越来越强大。这些目标都是非常有价值的,但会产生一些重大问题。其中最重要是伦理、法律的本质以及人类计算的社会影响。如何设计这个工作才能允许有意义的和有尊严人类的参与?获得何种结果才能让最弱势人群从中受益?机器与人类之间产生特定结果的最优分工是什么?
你能读懂这段文字吗?
责编:微科普网