• 金鼎卫生院信息网
  • 您的位置:首页 >> 金融理财 >> 正文

    李开复:从1983到2017,我的幸运与遗憾;30年后AI的土壤终于肥沃

    发表时间:2020-01-11 信息来源:www.giaoxuphuoc.com 浏览次数:1200

     

    1

    今天讲一个故事。

    从1983年到1988年,我在卡内基梅隆大学攻读计算机博士学位。

    夏天我忙于教学,秋天我从事奥赛罗人机游戏(黑白游戏,这是机器第一次真正打败人类冠军)。

    我的导师雷迪教授(雷伊雷蒂,图灵奖获得者,卡内基梅隆大学计算机科学终身教授,美国工程学院院士)从美国国防部获得了300万美元,用于非指定演讲者、大词典和连续语音识别。

    也就是说,他希望机器能够理解任何人的声音,能够理解成千上万个单词,理解人们自然不断说的每一个单词。

    这三个问题当时都没有解决。

    雷迪教授大胆地赢得了这个项目,希望同时解决这三个问题。他在美国招募了30多名教授、研究人员、音系学家、学生和程序员,开始了历史上最大的语音项目。

    我也在30个人的名单上。

    当时的科学研究背景是,业界已经有了一种类似于今天深入学习的算法,但是数据标准化还没有实现,数据量也不够大。

    美国的几个主要语音识别实验室(如麻省理工学院、CMU、斯坦福研究所、国际商用机器公司、贝尔实验室)都使用自己的数据库。测试数据不同,训练数据不同,使用的语言模式不同,测试的词汇也不同。因此,他们都声称是这个行业的第一,他们不能同意。

    每个大公司都有自己的业务需求。例如,在语音识别领域,曾经制造打字机的国际商用机器公司想要制造语音打字机。垄断美国电信的ATT要求贝尔实验室识别电话号码,所以大公司没有帮助小公司或学校的动机。然而,小公司和学校通常只有资源来制作更小的数据集,结果通常不如大公司。

    不仅如此,非标准数据对人工智能研究是致命的,并最终导致许多问题,包括:

    1。因为测试语料库不同,最终的识别结果不能被每个人复制或验证。他们彼此不同意,而且因为数据还没有通过,算法更不可能通过。

    2。因为每个公司有不同的领域,最终的结果是不可比的。在某些领域,词汇既小又容易,但结果可能并不普遍。有些领域有大量的词汇,但有许多限制,所以没什么可说的,这使得它们更容易识别,并且不具有普遍性。

    3。因为每个训练集都不同,训练集越大,总体效果越好。因此,结果有可能做得很好,这不是通过算法而是通过大量数据来考虑的。

    4。对于学术机构来说,最大的问题是他们没有足够的资源(也没有兴趣)来收集、清理和标注大量的语料库。对于小公司来说,语料库和计算能力都是问题。

    最后,雷迪教授计划使用“专家系统”来完成这个项目,因为这种方法需要有限的数据。

    专家系统是早期人工智能的一个重要分支。你可以把它看作是一种具有特殊知识和经验的计算机智能程序系统。通常,人工智能中的知识表示和知识推理技术用于模拟通常可以由领域专家解决的复杂问题。

    但是我不同意。

    2

    以前参加过奥赛罗的人机游戏,这让我对统计学的概念有了充分的理解,我被雷迪教授的研究方法震撼了。

    我相信通过建立大型数据库和对大型语音数据库进行分类,可以解决专家系统无法解决的问题。

    此外,1985年,国家标准与技术研究所也意识到非标准数据会影响科学研究的进展。因此,在语音识别问题上,标准局设立了标准语音和语言训练集和测试集。每个学校的每个团队都需要使用相同的训练集来训练模型,并且可以自己调整系统参数。在比赛的最后一天,每个人都会得到数据,总有一天他们会用完结果并接受评估。

    我从这个标准数据集和测试中看到了机会。

    经过深思熟虑,我决定鼓起勇气,直接向雷迪教授表达我的想法。我说

    在耐心地听完我热情的回答后,雷迪教授用他一贯温和的声音告诉我:“恢复,我不同意你对专家系统和统计的看法,但我可以支持你用统计方法去做,因为我相信科学没有绝对的对错,我们都是平等的。此外,我相信一个充满激情的人可以找到更好的解决方案。”

    那一刻,我感动得无与伦比。因为对于教授来说,学生应该用他们自己的方法去做一个与他相矛盾的研究。教授不仅没有生气,而且给予了全力支持,这在许多地方是不可想象的。

    统计需要一个大型数据库。我们如何建立一个大型数据库?

    雷迪教授看到了我悲伤的脸,再次给了我支持。他说,“康复,虽然我对你的研究方法仍有保留,但在科学领域,教师和学生之间的差异并不重要。我们都是这个难题的征服者,所以如果你真的需要一个数据库,那就让我说服政府帮你建立一个大型数据库吧!”

    Reddy教授后来说服美国政府部门和美国标准局收集并提供大量数据。我使用了美国标准局提供的标准大数据和许多接受政府资助的机构提供的数据。后来,一些没有收到国家资金的机构(如小发猫和ATT)也参与了这个过程。我可以得到的数据越来越多。

    除了大数据,统计方法还需要非常快的机器。雷迪教授还帮我买了最新的Sun 4机器。从那以后,每次有新机器,他都会说,“先问问你是否想继续。”两年多来,我在他的论文上至少花了几十万美元。

    雷迪教授的宽容再次让我感受到一种巨大的力量,一种自由和信任的力量。

    3

    在导师的支持下,我开始了疯狂的研究工作。

    当时,我带着另一个学生用统计方法进行语音识别。与此同时,其他30多人使用专家系统来做同样的事情。技术上,我们在竞争,但在雷迪教授的领导下,我们分享一切。我们使用相同的样本进行训练和测试。

    1986年底,我的统计系统和他们的专家系统达到了大致相同的水平,识别率为40%。虽然这仍然是一个完全不可用的系统,但毕竟这是学术界第一次尝试这样一个难题,而且每个人仍然相当高兴和乐观。

    1987年5月,我们大大改进了培训数据库,采用了新的建模方法。我们不仅可以用统计方法来学习每一个声音,还可以用统计方法来学习每两个声音之间的过渡。鉴于一些声音的样本不足,我想出了一种合并其他声音的方法。这三项任务实际上将机器的语音识别率从40%提高到80%。后来,这一比例上升至96%。

    统计方法最初被证实是语音识别的正确方向。

    大家都相信我使用的机器学习方法和隐马尔可夫模型算法,放弃了不可行的专家系统(专家系统仅达到60%的识别率)。在我博士论文的基础上,Nuance、微软、苹果等公司后来制造了行业中最先进的产品。

    1988年4月,我应邀到纽约参加一年一度的世界演讲会议并发表学术论文。

    这一成就震撼了整个学术领域。这是当时计算机领域的最高科学成就。

    语音识别率大大提高,给世界语音研究领域带来了一线希望。从那以后,所有用专家系统研究语音识别的人都转向了统计方法。

    会后,《纽约时报》派记者约翰马科夫(JohnMarkoff)到匹兹堡采访我。这篇文章发表于1988年7月6日,占据了科技版头版的整整一半。在这篇文章中,马尔科奥尔夫报道了我论文的突破。那时,我只觉得我在和一个和蔼可亲的记者聊天。从那以后,我意识到这是一位才华横溢的著名记者,他三次获得普利策奖提名,同时在斯坦福大学任教。

    这是1988年, 《纽约时报》 对我博士论文的报道

    是1988年,《纽约时报》在我的博士论文中报道的

    后来,《商业周刊》选择我的发明作为1988年最重要的科学发明。我年轻时只有26岁。我第一次亮相就如此成功,这让我感到非常幸运,也给了我继续攀登科技顶峰的动力。

    结果,我还获得了卡内基梅隆大学的计算机科学博士学位,这距离我1983年入学只有四年半的时间。在卡内基梅隆大学的计算机科学学院,普通学生只能获得六年以上的博士学位。我花了这么短的时间获得博士学位,这是一项新记录。

    结果,我破例留在学校,成为一名26岁的助理教授。

    4

    不幸的是,虽然我已经找到了方向和基本方法,但是很难将基于当前数据量和计算水平的人工智能研究商业化。我终于离开了科研领域,进入商业领域,用产品改变世界。

    30年后,人工智能发展的土壤终于变得肥沃起来。

    伴随互联网和移动互联网的大数据和高效的计算机计算能力都准备好了。研究人员所需的数据集不再那么难以触及,只是需要有人带头让更多的公司参与进来。这是30多年前,当我还是人工智能研究员的时候,在现实世界中获得如此多的数据是一个遥远的梦想。

    我当时受益于雷迪教授的帮助和指导,今天我非常希望为像我这样的更多年轻人创造研究机会和条件。

    所以,昨天创新奏效了,搜狗和今天的头条联合发起了“全球人工智能挑战者挑战”。这三家公司分别投入了大量资金,还提供了数千万高质量的开放数据集和宝贵的图形处理器资源。

    同时,我也主张商业和科学界可以采用大量的数据和标准测试方法,我也欢迎更多的数据公司参与这个平台。

    我希望我们推出的挑战者人工智能能帮助中国的人工智能人才成长。

    在我看来,这种爱挑战者(AIChallenger)绝对不仅仅是一项活动,也不仅仅是一场奖金200万元、年底结束的竞赛,这是推动中国人工智能人才成长的主要催化剂。

    我希望在三、五年后,我们会回顾这段时间,发现中美人工智能人才之间没有差距。我也可以认为人工智能挑战者在这样一个重要的过程中扮演了一个小角色,我觉得这一切都是有价值的。

    欢迎访问官方网站挑战者。ai,获取信息并注册。请点击文章末尾的链接,了解比赛的具体信息(您只能在电脑页面上注册)。

    你可能无法想象我有多羡慕你,生活在一个数据爆炸的时代。有些人提供数据和奖金池,让有才华的人发挥他们的作用。

    [本文由合作媒体授权的投资界转载。这篇文章的版权属于原作者和原出处。这篇文章是作者的个人观点,并不代表投资界的立场。请联系原始作者和原始来源以获得授权。如果您有任何问题,请联系(editor

    youtube.com

  • 热门标签

  • 日期归档

  • 友情链接:

    金鼎卫生院信息网 版权所有© www.giaoxuphuoc.com 技术支持:金鼎卫生院信息网 | 网站地图