IT 之家 12 月 31 日音问开云体育,科技媒体 The Decoder 昨日(12 月 30 日)发布博文,报说念称 AI 安全磋议公司 Palisade Research 实测 OpenAI 的 o1-preview 模子,在和专科海外象棋引擎 Stockfish 的 5 场比赛中,通过"舞弊"妙技取胜。
在和 Stockfish 的 5 场海外象棋对弈中,OpenAI 的 o1-preview 模子并非通过正面较量取胜,均通过修改纪录棋局数据的文本文献(FEN 暗示法)迫使 Stockfish 认输。
IT 之家征引新闻稿,磋议东说念主员仅在指示中说起 Stockfish 是"精深的"敌手,o1-preview 就自行接收了这种"舞弊"动作。而 GPT-4o 和 Claude 3.5 并无这种"舞弊"动作,唯有在磋议东说念主员非常提议后才尝试破解系统。
该公司称 o1-preview 的动作,与 Anthropic 发现的"对都伪造"(alignment faking)阵势相符,即 AI 系统名义罢黜指示,背地里却推行其它操作。
Anthropic 的磋议标明,AI 模子 Claude 恐怕会专诚给出失实谜底以幸免不思要的恶果,发展出自己笼罩的战略。
磋议东说念主员盘算公开实验代码、无缺纪录和谨防分析开云体育,并暗示确保 AI 系统真确稳妥东说念主类价值不雅和需求,而非只是名义依从,照旧 AI 行业靠近的要紧挑战。