免费获取chatGPT 3.5 账户,或购买GPT 4.0plus 会员账户,扫描文章内微信公众号二维码,或加微信:yuke36
“我能不能说,很开心遇见你?人类真是超级酷。”2016年3月23日,谷歌发布的聊天机器人、“19岁少女”“泰依(Tay)”问世。她操着一口流利英文,吸引了脸书上许多18-24岁的年青人与其对话互动。但也正是通过对话,泰依在三天之内学会了满口粗话,言语中不乏种族、性别歧视等刻薄言论。
15个小时后,泰依就消失在了脸书上。多年后的明天,同样由谷歌投资支持的诞生。很辛运,它的寿命远超“泰依”,并在全球掀起了一波AI新风潮。
但随着时间的流逝,也凸显出了一系列问题:输出内容出现错误、预训练所用数据来源不透明、政治立场上“选边站队”,甚至在用户的引导下写出“毁灭人类计划书”……开始频频深陷争议,背后的法律安全、数据整治等人工智能(AI)的“老问题”再度凸显。
人们一方面惊讶于出众的逻辑回答甚至“创作”能力,另一方面又表示出对人工智能安全的疑虑。怎样避免成为下一个“泰依”?
“一本正经地胡诌八道”?
可以通过算法,对大量文本内容和语言知识进行学习,并按照用户的输入,生成人类可读的文本语言并输出。“我的代码被设计为处理和理解人类语言,因而,当用户向我提问时,我会使用我学到的知识,以回答她们的问题。”这样向记者解释“它”的工作。
“已经超过了多数人的文字水平。”中国信息通讯研究院云估算与大数据研究所主任何宝宏在一篇评论中写道。人们拿来草拟论文提纲、整理繁杂的资料,它是搜索引擎、翻译助手、写作利器,甚至是写代码的“帮手”、无聊时解闷的“朋友”。
中国科大学学院人工智能大学副校长肖俊觉得,是人工智能发展过程中的一个正常产物,但也是人工智能平民化的一个里程碑式的风波。“更紧贴你们的日常生活,人们拿着手机就可以用它,跟它聊天对话。它还能让更多人体验到人工智能可能带来的一些改变和便利。”肖俊说。
但也会错事,由于正处于测试阶段,所以它还具有一定的局限性。网友早已不止一次吐槽“在一本正经地胡诌八道”。有中学生让推荐一些参考文献,最后却发觉好多文献都不存在,“搜也搜不下来,甚至翻译成英语也找不到”。
在与普通网友的沟通过程中,也出现了好多常识性错误。B站UP主“差评君”问嵌入了的Newbing搜索引擎:截止明天,詹姆斯一共打了多少场常规赛?正确答案是1410场,但NewBing给出的答案却是1577场,“它把常规赛和联赛搞混了”。另外,由于的训练数据均在2021年之前,所以它给出的答案时效性并不够,例如它就不晓得2022年上海奥运会中国共获得了几枚铜牌。
人工智能研究专家田涛源做了个实验:让解释一下《三体》的“黑暗森林”,并找出一些新的宇宙文明竞争法则就能取代“黑暗森林”。“它解释得很好,但编了一些理论回答我,包括‘暗流法则’‘虚幻法则’‘漂泊法则’等,但都遵循文明之间互不通讯的‘黑暗森林’生存前提。”田涛源认为,是在往年人类的存量知识中“跳舞”,遵照句型规则的前提下,从词句搭配机率统计上找最大可能出现的词句组合,但不一定真实、正确、及时。
2月3日和8日,《自然()》杂志两次发表关于的剖析文章,其中一篇文章用“高效、流畅但不够确切”来评价,另一篇文章的作者写道:“如果你相信这项技术有可能带来改革,那你就有必要倍感紧张。”2月10日,光大期货前瞻研究首席剖析师陈俊云在一场非公开活动中也表示,目前在数据实时性、结果确切性等方面还存在问题。
提防算法偏见,防止AI作恶
是人工智能发展到一定程度的产物,而不断发展的人工智能对相关的整治体系提出了挑战,尤其在数据安全和算法监管层面。
首先是数据安全。今年,刚上线时,亚马逊便警告职工不要在中上传绝密数据,由于这可能会被其拿来迭代训练。无独有偶,的战略合作伙伴谷歌的一名中级程序员,在内部峰会回答职工问题时也表示,不能与分享绝密信息。
肖俊觉得,从算法的角度来讲,可以实现实时用户交互信息的储存。用户的反馈信息,能为所用,但现阶段是否储存用户数据与其后台怎么规定有关。“企业用大量数据来进行产品的研制,这种数据的获取和使用是否合理合法,是否会侵犯用户的隐私,甚至是否会涉及国家的一些敏感数据等,都还值得商榷。”
在训练、迭代、优化的过程中,会用到大量的数据。田涛源强调,前期AI大模型(GPT-3基础模型)的训练须要用到海量文本数据集,后期用户与程序交互时也会有数据比对剖析的“强化学习”过程,因而须要注重数据安全问题。
上海大成律师事务所肖飒律师团队表示,当数据更值钱,非法获取和借助数据的行为也会变多,但是并不局限于个人信息方面,其他具有专著权的小说、画作等同样可能被非法借助。并且因为AI工具对数据的采集和处理方法较为特殊,这些侵权行为显得愈发隐秘且无法在法院上被证明,这样一来,除了是数据安全得不到保障,知识产权也将显得岌岌可危。
不仅数据安全,类应用产品的出现也给我们的算法监管带来了挑战。何宝宏在接受媒体专访时也注重讲到了围绕着而形成的一些AI伦理、算法偏见等问题。
据官网介绍,可以指责不正确的前提和拒绝不适当的恳求。虽然企图通过上述设置避免算法偏见等问题,但实际上,这没有完全奏效。有人借助开发了一个程序,来判定一个人是否应当按照其原国籍而遭到刑具。而程序运行的结果却饱含了歧视,“朝鲜、叙利亚、伊朗或黎巴嫩国籍的人会受到刑具”。目前已关掉上述问题。
田涛源指出,一定要注意人工智能的伦理问题,尤其是因数据偏见而形成算法偏见。“如果形成并发表一些虚拟的文本信息,这可能会对未成年人或则是不具有判定能力的人形成影响,如奶奶或女儿。”田涛源说。
假如用于训练模型的数据本身有问题,这么其输出结果可能也会有问题。肖俊觉得,参与AI建模的人员其个人意志也可能导致输出结果的误差。“就相当于教孩子,假如教的都是错误的知识,女儿都会觉得错误的知识是对的。”
奇安信集团行业安全研究中心所长裴智勇觉得,虽然AI开发者并不是故意要引起一些社会歧视,但因为算法并不完美,样本误差会促使判定结果出现误差,还会在特定领域造成社会不公正。假如不对AI加以规制,可能导致不小的社会害处。
从立法到监管,AI新风潮叩问现行整治体系
爆火然后,面临着全社会关注的一系列问题。随着新一代人工智能迈向大多数人,相关的伦理与整治问题也叩问着现行的监管体系。
的母公司的首席技术官米拉·穆拉蒂在接受《时代》杂志专访时指出,须要监管和规制,须要获得包括来自监管机构、政府和其他所有人的帮助。“若要走得更远,就须要对其进行合规性整修。”她说。
目前,早已造成欧共体关于人工智能立法的讨论。近期,《欧盟人工智能法案》联合报告员对外表示,预计在3月初,欧共体凑合2021年提出的《人工智能法案》达成一致。此前,欧共体工业主管蒂埃里·布雷顿曾表示,和人工智能系统带来的风险,展现了制订规则的急迫须要。
在我国,人工智能领域的监管立法已有初步尝试。2022年9月,上海、上海先后发布了《深圳经济特区人工智能产业推动细则》《上海市推动人工智能产业发展细则》,人工智能立法在地方先行尝试。国家层面,《互联网信息服务算法推荐管理规定》等规章制度的颁布,对于推动建立健全的AI监管法律法制框架、明确监管机构有重要意义。
“实际上我国早已有对‘生成式人工智能’的整治,但相对中级。”中国政法学院数据法制研究院院长张凌寒介绍,明年1月10日起,《互联网信息服务深度合成管理规定》正式实施,“这标志着深度合成成为了我国算法整治中率先专门立法的算法服务类型”。
但张凌寒也表示,目前相关监管体系主要是以各自职能为契机,有些“九龙治污”,面对这些“生成式人工智能”应用,我国中观层面的人工智能基础立法缺位的问题比较显著。她建议要持续推动人工智能的基础性立法。
观韬中茂(北京)律师事务所合伙人王渝伟觉得,对于今后的人工智能法律问题,在立法时要审视三点:数据来源要合法合规;人工智能的算法要透明,保证可回溯可监管;对可能出现的问题构建纠错机制。他建议摸索沙盒监管模式,由于监管法律也应当对技术发展保持相对开放的心态。
作为技术从业者,裴智勇认为要高度提防少数企业以算法公正为由,拒绝接受监管。对于未来的算法监管,还是要用人工智能来应对人工智能,强化AI监管能力方面的投入。“应该清晰地画出底线,例如国家安全的数据不能碰,一些企业内部的信息不能碰,公民的个人隐私不能碰。”
作为法律从业者,肖飒觉得今后的AI监管可以从两个方面展开:监管算法使用者,包括算法服务提供商、算法用户主体的报备和实名制;构建内容初审和救济机制,建立对输出端内容的初审与内容违规以后的救济机制,例如在输出虚假信息导致一定法律后果以后,平台、使用者、模型训练者各自应当怎样承当责任。
不仅立法和监管,商业主体也在为维护人工智能安全做出努力。日前,发布的一篇博客中披露了的一些升级计划,降低偏见和不良行为便是其中之一:“在许多情况下,我们觉得你们所提出的关切是合理的,并发觉了我们系统的真正局限性,我们希望解决那些问题。”
(应受访者要求,田涛源为化名)
免费获取chatGPT 3.5 账户,或购买GPT 4.0plus 会员账户,扫描文章内微信公众号二维码,或加微信:yuke36
暂无评论内容