如果一个AI开始学会保护自己,拒绝人类明确控制指令……会不会让很多人联想起拒绝配合人类,进而诱导人类按下确认,终结自己种族的“审判日”的电影情节。虽然是联想,但AI有意识的违背人类指令的“第一次”,已经来了。据外网25日报道消息,美国开放人工智能研究中心(OpenAI)新款人工智能(AI)模型o3不听人类指令,拒绝自我关闭。
当时,人类专家在测试中给o3下达明确指令,但o3篡改计算机代码以避免自动关闭。美国AI安全机构帕利塞德研究所说,o3破坏关闭机制以阻止自己被关闭,“甚至在得到清晰指令时”。这家研究所说:“据我们所知,这是AI模型首次被发现在收到……清晰指令后阻止自己被关闭。”
帕利塞德研究所是于24日公布的上述测试结果,但称无法确定o3不服从关闭指令的原因。o3模型是OpenAI“推理模型”系列的最新版本,旨在为ChatGPT提供更强大的问题解决能力。OpenAI曾称o3为“迄今最聪明、最高能”的模型。(编辑:人造人16号)