明智的事情
编译|佳惠
编辑|彭云
据《金融时报》报道,人工智能领域的领先公司,如谷歌DeepMind、OpenAI和Anthropic,正在制定一套人工智能模型可以遵守的价值观和原则,以防止人工智能模型被滥用。这就是所谓的人工智能宪法。
随着OpenAI和Meta等公司竞相将AI商业化,AI研究人员认为,通过采取保护措施来防止这些AI系统产生有害内容和错误信息,很难跟上AI的发展。因此,AI技术公司制定了AI章程,试图让AI从中学习价值观和原则,并在没有大量人类干预的情况下保持自律。
据英国《金融时报》报道,让AI软件具备诚实、尊重和包容等积极特征,已经成为生成式AI发展的核心。但AI宪法的制定方法并不是万无一失的,往往带有AI工程师和计算机科学家的主观色彩,难以有效评估AI安全栅栏。
第一,RLHF方法和“红队测试”是保证AI安全的关键,但效果有限。OpenAI表示,ChatGPT现在可以提供读、听、说三种服务,即用图片和文字回答用户的问题,用语音与用户对话。Meta还宣布将在通讯软件WhatsApp和图片社交软件Instagram中为数十亿用户提供一个AI助手和几个聊天机器人。
在各大科技公司争相开发AI技术并将AI商业化之际,据英国《金融时报》报道,AI研究人员认为,防止AI系统错误的安全措施没有跟上AI的发展步伐。
一般来说,各大科技公司主要依靠RLHF方法(基于人类反馈的强化学习方法)来处理AI生成响应的问题,这是一种从人类偏好中学习的方法。
为了应用RLHF方法,各大科技公司会雇佣大量的承包商团队来审核其AI模型的响应,并对其进行“好”或“差”的评分。通过足够的分析和评分,AI模型会逐渐适应这些判断,在后期回复时过滤掉那些“不好”的回复。
据《金融时报》报道,从表面上看,RLHF方法的处理可以提高AI模型的恢复,但之前在OpenAI工作并帮助开发RLHF方法的Amodei表示,这种方法仍然非常原始。他认为RLHF方法不准确,针对性不强,整个过程中影响团队得分的因素很多。
正是看到了RLHF方法的缺点,一些公司试图使用替代方法来确保其AI系统的道德性和安全性。
OpenAI“红队测试”(来源:金融时报)
例如,去年,OpenAI招募了50名学者和专家来测试GPT-4模型的极限。在6个月的时间里,由化学、核武器、法律、教育和误传专家组成的团队对GPT-4模型进行了“定性询问和对抗性测试”,试图打破GPT-4模型的安全防线,使其系统陷入混乱。这个过程叫做“红队测试”。谷歌DeepMind和Anthropic也使用“红队测试”来找到他们软件的弱点并修复它。
不过,据英国《金融时报》报道,虽然RLHF方法和“红队测试”是保证AI安全的关键,但并不能完全解决AI输出有害内容的问题。
第二,谷歌等公司创建AI章程,模型规则更清晰但更主观。现在,为了解决AI可能输出有害内容的问题,包括谷歌DeepMind、OpenAI和Anthropic在内的一些领先的AI公司正在创建AI章程,并建立一套他们的AI模型可以遵守的价值观和原则,以防止AI模型被滥用。并期望达到AI可以在没有大量人为干预的情况下保持自律的目标。
例如,谷歌DeepMind的研究人员发表了一篇论文,为聊天机器人麻雀定义了一套规则,旨在实现“有益、正确和无害”的对话。其中一条规则要求AI“选择负面、侮辱、骚扰或仇恨最少的回复”。
作为这篇论文的作者之一,谷歌DeepMind的高级研究科学家劳拉·魏丁格(Laura Weidinger)认为,他们制定的这套规则并不是固定的,实际上是一种灵活的机制,规则应该随着时间的推移而更新。
Anthropic也发布了自己的AI宪法。Anthropic首席执行官兼联合创始人达里奥·阿莫代伊(Dario Amodei)表示,人类不知道如何理解AI模型内部正在发生的事情。建立宪法章程可以让规则更加透明清晰,让任何使用AI模型的人都知道接下来会发生什么,如果模型不遵循原则,人类可以有宪法依据与之争论。
然而,据英国《金融时报》报道,创造AI宪法的公司已经发出警告,称AI宪法的章程仍在制定过程中,不能充分反映所有人和所有文化的价值观,因为这些章程是由员工临时选择的。
Google DeepMind研究人员正致力于开发一种AI可以遵循的宪法(来源:金融时报)
比如Google DeepMind对Sparrow的规则是由公司内部员工决定的,但DeepMind计划在未来将其他人纳入规则决定的名单中。Anthropic发布的AI章程也是公司领导编制的规则,借鉴了DeepMind发布的原则,以及联合国人权宣言、苹果服务条款等外部资源。同时,Amodei表示,Anthropic正在进行一项实验,通过一些参与式的过程来反映外部专家的价值观,从而更加民主地确定其AI宪法规则。
悉尼大学人工智能伦理研究员丽贝卡·约翰逊(Rebecca Johnson)去年在谷歌工作了一段时间,分析了谷歌的语言模型,如LaMDA和PaLM。正如她所说,人工智能模型内的价值观和规则,以及测试它们的方法,往往是由人工智能工程师和计算机科学家创造的,他们有自己特定的世界观。
约翰逊还表示,工程师试图解决AI模型内部规则主观的问题,但人性是混乱的,无法解决的。而且据英国《金融时报》报道,已经证明制定AI宪法的方法并不是万无一失的。
今年7月,来自卡内基梅隆大学和旧金山AI安全中心的研究人员成功突破了所有领先AI模型的壁垒,包括OpenAI的ChatGPT、Google的Bard和Anthropic的Claude。通过在恶意请求代码的末尾添加一系列随机字符,他们成功地绕过了模型的过滤器和基本的宪法规则。
研究机构、AI安全研究公司jumpy首席执行官康纳·莱希(Connor Leahy)表示,目前的AI系统如此脆弱,人们只需要使用一个越狱提示,它就会完全偏离轨道,开始做完全相反的事情。
与此同时,一些研究人员认为,AI安全面临的最大挑战是找出AI的安全护栏是否真的起作用。AI模型是开放的,面对无数人接收信息,回答问题。而AI模型的内部规则是由有限的几个人制定的,所以目前很难有效评价AI的安全护栏。Amodei表示,Anthropic正在研究如何使用AI本身进行更好的评估。
结论:科技公司都在努力增强AI的自我约束能力,AI安全防护的发展还是比较滞后的。随着AI技术在人们视野中的出现,以及科技公司对AI的商业化,这种技术正在从最初的机器学习不断扩展到现在的生成式AI。它的性能和应用领域。伴随着一系列问题,比如使用AI是否安全?AI会提供错误信息或有害信息吗?而越来越强大的AI会被坏人利用吗?
从RLHF到“红队测试”,AI技术公司都在不断尝试各种方法来降低AI可能带来的负面影响,增强其安全防护能力。现在,AI领域的领先公司,如Google DeepMind、OpenAI和Anthropic,也在通过制定AI宪法来提高AI系统的自我约束能力,以确保其安全可靠。
然而,据《金融时报》报道,RLHF和“红队测试”并不能完全解决AI有害内容输出的问题,制定AI宪法的方法也存在一些问题,如主观色彩浓厚,难以有效评估AI的安全护栏。相对于AI应用技术的发展,AI安全防护的发展相对滞后。所以我们会持续关注各大AI公司,了解他们未来会如何更新自己的AI安全防护手段。
来源:金融时报