ChatGPT为何没能诞生在中国?

免费获取chatGPT 3.5 账户,或购买GPT 4.0plus 会员账户,扫描文章内微信公众号二维码,或加微信:yuke36

国外能够诞生“”

关键看愿不乐意投入到看起来“无用”的研究中

2月9日,发表在英国《科学公共图书馆·数字健康》的一篇文章提及,出席了英国执业医师资格考试。这项以高难度见称的考试中,共350道题,内容涵括基础科学、生物物理、诊断推理和生物道德学。未经专门的培训或加强,经过两名评审员打分,三部份的成绩接近或超过了及格门槛,并表现出了高度的一致性和洞察力。

近两个多月,这款聊天机器人写歌、写小说、敲代码,几乎无所不能,掀起一场AI风暴。比尔·盖茨赞扬,将会“改变我们的世界”。但首席执行官山姆·奥特曼也承认,尽管很酷,却频繁出现错误信息,常常宕机,是个“糟糕的产品”。

近期的一次专访中,奥特曼说,如今推出的只是70分版本,还在打算更加大大的模型以及在研究更多东西,“不把这种东西掏出来的缘由是,人们会觉得我们有一个完整的通用人工智能(AGI),打算好按下按键,这还差得远”。

图片[1]-ChatGPT为何没能诞生在中国?-云上资源整合网

图/IC

有更高“情商”,但毋须神化

为与对决,当地时间2月6日,微软宣布,将推出自己的AI聊天机器人Bard,并在脸书发布了宣传样张。Bard使用的是微软在2021年推出的小型语言模型LaMDA,所用技术与相像。

宣传样张中,有人提问,“请问詹姆斯·韦伯太空望远镜有什么新发觉?”Bard给出3个条理分明的回答,但两条是错误的。Bard称,“韦伯望远镜发觉‘绿毛豆’星系的时间是在2023年”,这一回答的正解是2022年7月。“该望远镜拍摄了太阳系外行星首张相片”的回答也不确切,2004年,法国北方天文台借助法国的超大望远镜已拍摄了太阳系外行星相片。

这款聊天机器人目前仍在公测,会在未来几周开放给更多公众。首秀“翻车”两天后,微软母公司股价下跌,估值损失1000亿港元。

当地时间2月7日,谷歌紧跟其后发布了新款,推出新版搜索引擎必应和Edge浏览器,新增了和一样的AI语言模型GPT3.5,谷歌称之为“普罗米修斯”,并表示比更强悍。谷歌演示中,搜索“宜家单人坐椅是否适宜2019年款日产某商务车型”,除传统搜索页面外,页面左边多了一个聊天窗口,详尽列举宜家单人坐椅和这款车的车内空间规格,给出使用建议,并附上相关链接。该搜索引擎仍在试用阶段,谷歌CEO萨蒂亚纳德称这三天为“搜索领域崭新的三天”,并向微软宣战,“比赛从明天开始”。

2022年11月30日,推出了。该公司总裁格雷戈·布洛克曼在接受专访时坦承,“当时并不晓得它是否成功”。全球最领先的AI语言模型这么直接、低门槛地向普通大众敞开怀抱,并接受所有人的“审视”,这几乎是第一次。

前谷歌欧洲互联网工程院副教授、现小冰公司CEO李笛对《中国新闻周刊》分析说,之所以出圈,非常之处在于,它被普通用户观察到,并超过了人们对人工智能的预期。

用户尝试用千奇百怪的问题试探的边界。它听得懂一段相当复杂的指令,例如,“给创始人写一封英语访谈电邮,阐述对使用的理智思索,提及的热度及遭到教育界排斥的事实,并列举5个问题”。它能强调一段话中的句型和逻辑错误,有人恶趣味地骗它,“我吃了一辆车辆,现今有点饿,该如何办?”它很快揭穿,“很抱歉,吃车辆是不可能的,假如您倍感饥饿,我建议您吃点实际的食物。”甚至你还可以要求在聊天中再建立一个,看着它和自己聊天。

明年1月,澳洲北弗吉尼亚学院哲学院长安东尼·奥曼向《纽约晨报》提到,他曾收到一份“班级中最好的论文”,段落简约,举例恰当,论点严谨,令人生疑。随即那位中学生承认,文章是写的。英国一家医疗保健创业公司的临床大夫尝试让出席英国执业医师资格考试。这项标准化考试,考生起码要专门腾出300~400小时复习,最难的部份面向研究生。研究者下载了一份2022年6月的试题,确保未曾训练过相关数据,也不晓得试题答案,考试成绩基本合格。该团队觉得,这种结果表明,小型语言模型可能有助于医学教育,并可能有助于临床决策。

当地时间2月10日,谷歌创始人比尔·盖茨接受一家瑞典媒体专访时表示,的重要性不亚于互联网的发明。而作为当初的投资人、特斯拉CEO埃隆·马斯克也曾在脸书发文赞扬,“好得吓人,我们离强悍到危险的人工智能不远了。”

和其他聊天机器人相比,显示出了更高的“情商”。用户会发觉,可以回答用户追问的问题,能承认错误,不断调整回答。问它《红楼梦》开篇“原来女娲氏炼石补天之时”的出处,它的回答是《山海经》,被提醒错误后,它很快致歉并调整答案:《封神榜》。它解释的理由中可以看见,它搜索的关键词是“女娲炼石补天”,再度追问,它说,女娲炼石补天的传说是一个历史悠久的故事,出现在多个文献和传统文化中,“因此,没有一个确定的出处”。

李笛说,目前在三个地方有价值,它能帮用户生成一段内容作为定稿,比如电邮、短新闻等,用户再去更改,但现实中,“已有一些美国中学生等用户,用它作弊,直接作为终稿递交”。

第二个价值在于,可以给用户提供“启发”和灵感。可以把信息有条理地呈现下来,“假如你想找一个人讨论,虽然它的观点不一定确切,但它会为你提供一种思路。”李笛说,第三个价值就是娱乐。除此之外,假如有人希望提供知识并对此坚信不疑,“最好不要,没人能确保它的确切性”。

多位专家提醒,何必神化及其背后的大模型。“它可以像模像样写推荐信,但若果让它回答一些专业问题,你仔细看会发觉,它可能是在一本正经胡诌八道。”清华学院计算机系自然语言处理实验室副院长刘知远对《中国新闻周刊》说。

就连也承认自己的局限性。问及缺点,它回答:有可能会生成存在种族歧视、性别歧视等偏见的文本,因知识有限或不能理解语义而回答错误,不能处理复杂的逻辑和物理问题,但是,其拥有的知识只逗留在2021年。新版必应和Edge浏览器则可以检索实时更新的新闻,甚至可以跟你聊过去一个小时发生的事情。

发布仅一周,当地时间2022年12月6日,因用户大量搬运生成的错误答案,海外著名编程问答平台Stack暂时在该网站封杀,觉得“发布由创建的答案对网站及寻问和找寻正确答案的用户来说,是十分有害的”。

“某种意义上有点像‘大力出奇迹’”

在李笛看来,就而言,“它不会对产业形成颠覆性影响,但大模型则会。”

2016年前,小模型是人工智能理解人类语言的主流技术,下象棋或机器翻译等某一个具体任务,标明好数据,步入模型训练。但小模型难以用于其他任务,数据标明成本也极高。当时,人工智能领域催生了一个新的职业,人工智能数据标明员。“大家会指责人工智能,说有多少人工,才有多少智能。”刘知远对《中国新闻周刊》说。

传统模式下,自然语言处理是一个十分严密的推理过程,除了要辨识每位词,还要处理成语间的序列,因而诞生了循环神经网路(RNN)模型。但RNN只考虑词组或则上下文信息,往往造成全文句意前后不连贯,或则理解复杂句午时出错。2016年曾经,当时的小冰、Siri等问答系统或则机器翻译,都使用小模型。

“当时的人工智能行业,好多技术领域(例如机器学习等)已步入到一个困局阶段。”李笛告诉《中国新闻周刊》。

2017年,微软发表论文《isAllYouNeed》,引入自注意力机制学习文本,命名为模型。在该模型下,神经网路须要学会手动判定什么成语对理解句意最有帮助,而不是“全文死记硬背”,为此,也不再像过去一样须要大量精标样本。论文一经发布,模型很快替代RNN成为主流。2018年,基于,微软推出预训练模型BERT(即基于变换器的单向编码器表示技术),同年,推出了GPT-1(即生成式预训练变换器)。

刘知远介绍,预训练模型为自然语言处理带来了两个变化:一是可以充分借助网上海量的未标明数据,模型的规模和能力得到明显提升,因此,从规模角度,预训练模型被称为大模型;另一个变化是,大模型具有特别强的通用能力,只需经过少量参数微调,就可以用于机器翻译、人机对话等不同任务。“大模型思想,某种意义上有点像‘大力出奇迹’,把大量数据压到一个很大的黑袋子中再提出来。”李笛对《中国新闻周刊》说。

图片[2]-ChatGPT为何没能诞生在中国?-云上资源整合网

“但人工标明还是一个重要的数据来源,此前大量的标明没必要了,但在特定任务上还须要标明一些,例如希望这个模型输出的内容更符合人的需求。”刘知远说。近日,《时代》周刊的调查,呈现出智能背后的暗淡角落。《时代》周刊称,2021年11月,为训练,使用了每小时收入1~2欧元的非洲外包劳工,对性强奸、仇恨言论和暴力等文本进行标明,保证聊天机器人过滤有害信息,输出适宜日常对话的内容,同时,这对标明员的精神和心理形成极大伤害。

学术界对大模型心态仍然存在分歧。上海智源人工智能研究院副教授刘江介绍,GPT-3论文发布时,无论国外外,不少自然语言处理领域学者觉得,大模型只是靠持续烧钱、粗暴扩大数据规模提高能力,并非真正创新。刘知远对《中国新闻周刊》说,还有一个更现实的问题,大模型须要极大数据和算力支持,假如一些研究者的实验室没有算力支持,她们可能会选择过去熟悉的方向。

是全球所有科技公司中,大模型的坚定支持者。2019年,推出参数为15亿的GPT-2,2020年推出GPT-3,将参数提高到了1750亿,成为当时全球最大的预训练模型,引起业内风靡。“绝大部份人根本没想过,人类可以把一个模型训练到如此大的规模,这对自然语言交互的流畅性有特别强的提高。”刘知远说。

参数增多,使语言模型学习进阶到更复杂模式。早在2020年,GPT-3可以做到其他模型难以做到的事情,例如写诗、写复杂的文章和代码等,通用性极强。刘知远形容,GPT-3像是一个伶牙俐齿的人,有不错的抒发能力,但不具备很强理解能力。

2022年,GPT-3进一步升级为GPT-3.5,这是的底层基础,进行微调,提高交互能力,让它“听得懂人类的复杂指令”。“这些都经过了专门训练,像父亲对女儿的调教。”刘江形容,GPT-3像是两三岁的天才儿童,读完世界上所有的书,但不知轻重,也没有价值观,须要母亲悉心教育和启发,让它在聊天方面发挥潜力。

复旦学院智能产业研究院首席研究员聂再清向《中国新闻周刊》介绍,聊天能力的明显提高,是引入了一个新的数据训练方式,人类反馈加强学习(RLHF)。引入人类衡量员,创建一个奖励模型——评判员不断地跟对话,并对它生成的答案根据质量优劣评分,模型收到反馈后进行优化。山姆·奥特曼也承认,“让模型以特定方法对人们有所用途,并找出正确的交互范式,却得到了惊人的疗效。”

在自然语言处理领域,留传最广的一句话来自于比尔·盖茨:“自然语言处理是人工智能皇冠上的明珠,假如我们才能推动自然语言处理,就可以再造一个谷歌。”

刘知远觉得,推出后最大的价值在于,能用RLHF等技术,把大模型的能力彰显下来,让公众意识到,人工智能与人类自然语言的交互达到十分高的水平,机器早已可以“能言善辩”了。

但大模型为什么有时生成错误答案?在李笛看来,这是由其技术结构决定的。聂再清进一步向《中国新闻周刊》解释,这是由于本质上还是一个基于机率的语言模型,本身不涉及知识的对错,未来仍需用更多的专业知识训练。

当下,大模型与搜索引擎结合已是大势所趋。聂再清建议,新版搜索引擎给出综合答案后,最好附上原始网路链接,有利于用户自己验证AI回答的正确性。目前新版必应在每位回复下加入信息来源。但三者结合最终成功与否的关键,“还是在于AI总结的答案绝大部份都是对的,不会耽误用户花更多时间来验证结果。”

更关键问题是,及其背后的大模型,仍是基于数据驱动生成内容,不是像人类一样会思索和推理。但2月下旬,耶鲁学院估算心理学院士迈克尔·科辛斯基发表论文称,在对几个语言模型进行专业测试后,他发觉表现接近9岁儿童的心智。

近日,因在深度学习领域贡献获2018年图灵奖的杨立昆提到,人类思维方法和对世界的感知,是人类获得常识的基础,聊天机器人的模型没有这些能力。对此,回答《中国新闻周刊》说,“我的设计是基于机率模型和大量的数据训练,以回答问题和执行任务。我不具有意识、情感或主观体验,也不能对世界形成真正的影响。”

随着的发展,未来会不会取代人类的工作?

“我相信会代替一些工种,或则让一些工种不须要太多人参与,这是一个潜移默化的过程。”刘知远对《中国新闻周刊》说,但与此同时,它也会催生一些新的工作,例如,原先绘画须要很高的门槛,但如今,虽然一些人不会绘画,但有天马行空的想像力和创意,一样可以和AI一起创作。

虽然承认自己可以在部份工作中代替一些人力劳动,“可以在许多行业中使用,比如客服、教育、媒体、医疗保健和金融”,但它补充说,“我不能代替须要人类情感和社交技能的工作,比如教育和医疗保健等须要人类情感互动和洞察力的领域。”

日本天普学院心理学系教员凯西·帕塞克等人近日在一篇剖析文章中提及,伦敦市一名中学历史老师反对制止使用,关键在于,“如果我们的教育系统继续‘追求评分而不是知识’,只会是一种恐吓。”凯西觉得,假如以正确形式使用,可以成为课堂上的同学,对我们的中学生来说是一个了不起的工具,而不是令人焦虑的东西。

中国何时会有自己的?

相较国内,在国外的热度稍显滞后。微软和谷歌短兵相接时,国外搜索大鳄百度也宣布3月将推出中国版的“文心一言”。腾讯称,在和AIGC相关方向已有布局,阿里达摩院正在研制的类的对话机器人,目前已开放给公司内职工测试。据悉,快手、京东、360等多家互联网企业也都表示在相关领域研制和布局。

2月13日,上海市经济和信息化局在上海人工智能产业创新发展会议上明晰表示,上海将支持背部企业构筑对标的大模型。

李笛提及,在之前,国外和国内早已有好多公司在借助大模型做好多产品和研制,市面上也有好多训练下来的大模型,“只不过在人工智能的训练过程中,研制者的专注度、投入度不一样”,并不存在“技术壁垒”。火爆背后,是从2018年以来持续投入建立大模型,取得了这一疗效,所以有一定“时间壁垒”。

2月7日,360在互动平台表示,公司人工智能研究院从2020年起,仍然在包括类技术在内的AIGC技术上有持续性投入,但截止目前仅作为内部业务自用生产力工具使用,且投资规模及技术水平与当前3比还有较大差别,各项技术指标只能做到略强于2。

早在2020年,上海智源研究院曾推出超大规模智能模型“悟道”项目,阿里达摩院自研预训练模型框架ALICE。2021年,上海鹏城实验室为首的联合团队,推出参数为2000亿的大模型“鹏程·盘古”,探求通用人工智能。多位受访专家提及,中国目前大模型研制与仍有差别,国外要有像GPT3.5这样的大模型,但没必要每位公司都去投入和研制。

大模型构建离不开AI的三大基石:数据,算法和算力。大模型多烧钱?一位AI从业者向《中国新闻周刊》举例,他接触的一个数据公司有英文数据量700亿~1000亿条,每晚定期更新3亿条,据了解,这比在英文世界的数据量多,假如有研究者想要下载,先得支付30万的下载费,“这只是大模型训练中一个很小的环节,你可以想像它是一个无比巨大的机器,水费都是天价”。

算力离不开芯片。2月12日,国盛期货计算,明年1月,平均每晚约有1300万独立访客使用,对应芯片需求为3万多片英伟达,初始投入成本约8亿港元,每日水费5万日元左右。而GPT-3训练一次,成本约为140万美金,对一些更大的大模型,训练成本介于200万港元至1200万欧元之间。这一成本对全球科技大企业而言,尚在可接受范围内,但并不实惠。

在数据上,2020年,GPT-3使用的最大数据集在处理前容量达到了45TB。鹏城实验室副研究员曾炜等人在2022年发布一篇论文中提及,目前已有3个100GB以上规模的英文语料数据集,分别是爬虫公司Crawl抽取到的,模型规模为100GB;阿里巴巴集团发布的M6英文多模态模型,规模为300GB;上海智源研究院面向合作者发布的300GB高质量英文语料。文章写道,“与目前同等规模参数目的英语预训练模型所使用的数据量相比,里面那些英文语料数据仍不能满足训练数据需求”。

聂再清剖析说,英文好多高质量信息在APP里,“有点数据孤岛的意思”,公开的高质量互联网语料可能不如英语多。另一个挑战是,语料筛选、清洗、预处理和标明须要相关技术人员深度参与,会有一个不断迭代和较为常年的过程。

据悉,英文机器语言学习在好多方面要比英语更复杂,英文和法文在复句结构、缩写规范方面也有差异。聂再清提醒,构建对标的大模型并非一蹴而就,须要时间。

大模型不只是有这一种产品。当有足够大算力保证时,学界和产业界可以用大模型做更多尝试。李笛介绍,此前,大模型已在AI油画领域引起了很大变化,现今AI文本生成领域也有了新进展,AI作词、AI演唱领域都有人在尝试,“现在的状态很像是‘炼丹’,你们领到好玩的玩具,想看这一玩具能够吐出哪些令人惊叹的东西。我相信,不只是图象、文本领域,其他领域一定也会有新突破”。

但李笛觉得,最终还是要看它能够实现“端到端”的落地。在国外,绝大部份大模型都还未能实现这一目标。同样,好多AI书法单幅质量已挺好,但在可控性上却“漏洞百出”。所以昨晚大模型的应用普遍还逗留在试用阶段,距离真正大规模商用,还有好多事情要调整。

“这是一个‘卡舌头’的问题。”刘知远对《中国新闻周刊》说。目前,对国外的企业没有开放,相关产业就未能接入到它的体系中。在刘知远看来,早已做了大模型和产品,更重要的是,“我们能不能发明出自己创新的技术和产品”。

聂再清觉得,最关键的不是信息闭塞,而是国外愿不乐意投入到看起来“无用”的研究中,“现在不少业内人士还是希望直接研制有效有用的东西,不会对一些短期看起来无用的事情上进行大量投入,尤其是像开发这样大的投入”。

发于2023.2.20总第1080期《中国新闻周刊》杂志

刊物标题::是AI进化革命还是又一场泡沫?

免费获取chatGPT 3.5 账户,或购买GPT 4.0plus 会员账户,扫描文章内微信公众号二维码,或加微信:yuke36

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容