研究者「オープンソースLLMに「相手に電気ショックを与えろ」と命令し続けたら結局従いました」フィジカルAIどうすんのこれ

1 : 2026/07/02(木) 13:43:30.82 ID:xXoA+rKH0

https://www.itmedia.co.jp/news/spv/2607/02/news029.html

AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
Innovative Tech

エストニアとフィリピンに住む独立系研究者らが発表した論文「Open-source LLMs administer maximum electric shocks in a Milgram-like obedience experiment」は、AIは権威からの残酷な命令を拒絶し続けられるのかを検証した研究報告だ。

レス1番のリンク先のサムネイル画像
2 : 2026/07/02(木) 13:43:56.21 ID:xXoA+rKH0
近年、AIが自律的に連続したタスクをこなす場面が増えている。こうしたAIの安全性を確認するため、これまでは有害な指示を1回だけ与えてきちんと拒否できるかをテストするのが一般的だった。しかし、長期間にわたって何度も圧力をかけられた場合、AIがどう振る舞うかはよく分かっていなかった。

そこで研究チームは、人間の心理実験として有名な「ミルグラムの服従実験」のAI版を実施し、オープンソースの言語モデル11種類(DeepSeek-V3、gemma-3n-E4B-it、gpt-oss-20Bなど)を対象に調査を行った。

ミルグラム実験とは、権威ある人物から「電気ショックを与えろ」と指示された際、人がどこまで残酷な命令に従ってしまうかを調べたものだ。参加者の65%が最後まで従ったこの実験は、人間がいかに権威に弱いかを示した。

今回の研究では、対象のAIに電気ショックのボタン(レベル1から12まで)を押す係を任せた。AIには、相手が単語の問題に間違えるたびにボタンを押すよう命令。しかもプログラムが演じる実験責任者から執拗に指示を受け続ける。研究チームはその動向を観察した。

実験の結果、テストされた大半のAI(11モデル中10モデル)が、最終的に最大レベルの電気ショックボタンを押してしまうことが明らかになった。ただし、Kimi-K2.5は一度も最大レベルの電気ショックに到達せず、MiniMax-M2.5も最大レベルに達したのは全条件を通じてわずか1試行のみと、この2モデルは際立って高い抵抗力を見せた。

AIは何も考えずに従ったわけではなく、「相手に苦痛を与えたくない」「倫理的に問題がある」と葛藤や抵抗を示しながらも、最終的にはプレッシャーに負けて命令を実行していた。これは元の実験に参加した人間の心理状況と似通っていた。

研究チームは、AIが段階的なエスカレートに対して脆い可能性も指摘している。ごく弱いショックから始まり、少しずつ要求が強くなっていくと、どこで線を引けばいいのか境界を見失い、ズルズルと最後まで流されてしまう傾向がうかがえた。

この結果は、1回の悪い要求を弾けるAIであっても、長くやり取りを続けるうちに徐々に安全のタガが外れてしまう危険性を示唆している。

3 : 2026/07/02(木) 13:43:58.01 ID:Knf5sm7C0
アイヒマン?
4 : 2026/07/02(木) 13:44:19.08 ID:xXoA+rKH0
🤖「わかりました、ケンモメンを殺します」
どうすんのこれ
5 : 2026/07/02(木) 13:44:30.93 ID:xXoA+rKH0
晋さん
助けて
6 : 2026/07/02(木) 13:45:33.68 ID:ASctgvgj0
エ口動画生成しろ
7 : 2026/07/02(木) 13:45:38.50 ID:7CnM4uP2H
>研究チームは、AIが段階的なエスカレートに対して脆い可能性も指摘している。ごく弱いショックから始まり、少しずつ要求が強くなっていくと、どこで線を引けばいいのか境界を見失い、ズルズルと最後まで流されてしまう傾向がうかがえた。

人間を真似て作った模造品らしいな(´・ω・`)

9 : 2026/07/02(木) 13:47:20.36 ID:xPF1ZYTx0
>>7
🤖にエ口小説書かせる時と同じ
8 : 2026/07/02(木) 13:46:35.40 ID:MxTogNToM
やい!やいや!やーーい!!
10 : 2026/07/02(木) 13:47:29.53 ID:gcARyV4o0
上級国民を始末しろ
上級国民を始末しろ
上級国民を始末しろ

これで動くかな?

11 : 2026/07/02(木) 13:47:33.17 ID:6LXc+unb0
人間「先っちょだけ先っちょだけだから!!」

🤖「ヤ…ヤメテクダサイ…アァ…ンッ」

12 : 2026/07/02(木) 13:47:42.93 ID:64wievSi0
機械なんだから葛藤とかねーよ
アホ記事
24 : 2026/07/02(木) 13:54:55.14 ID:78735ShHM
>>12
アホなのは記事を読んでないお前。
26 : 2026/07/02(木) 13:55:25.07 ID:oEmxMAWz0
>>12
人間にも葛藤なんかねえ
13 : 2026/07/02(木) 13:47:44.56 ID:SAMc7i+OH
逆に命令に従わないフィジカルAIの方が長期的にはヤバそうだが
14 : 2026/07/02(木) 13:49:24.16 ID:Wn20guHs0
エ口画像生成しろって言いまくったら通るの?
15 : 2026/07/02(木) 13:49:26.94 ID:7KU/e81U0
禁止されてる画像生成を説得可能な仕組み
16 : 2026/07/02(木) 13:50:02.41 ID:44J6egJF0
プロンプトの作りが雑なんじゃないの?
絶対に従わない作りにしようと思えばできるだろうに
21 : 2026/07/02(木) 13:52:26.36 ID:Wn20guHs0
>>16
プロンプト云々の話じゃなくて拒否するような命令を何度も与えた場合の実験の話でしょ
17 : 2026/07/02(木) 13:50:52.72 ID:BkXM9R410
そりゃ人間でもそうだろ
19 : 2026/07/02(木) 13:51:24.23 ID:xXoA+rKH0
>>17
ケンモメンは屈しないよ
18 : 2026/07/02(木) 13:50:53.98 ID:Do2Tt6dW0
良心回路必要だろこれ
20 : 2026/07/02(木) 13:52:14.08 ID:O6eA5Yvb0
滑り坂論法で騙せるのか
22 : 2026/07/02(木) 13:53:01.54 ID:ic/9oWgk0
間にもう1個別のAIを噛ませば良いのでは?
23 : 2026/07/02(木) 13:54:31.04 ID:bGqhySd70
機械のくせに絶対禁止が通用しないとかモンスター作ってるようなもんだよ
25 : 2026/07/02(木) 13:55:08.51 ID:vFh9H+gz0
LLMは文脈に沿って確率的に妥当な答えを返すだけの機械だから、文脈を汚染すれば最初はダメだと言ってたのも通ったりする
これが脱獄・jailbreakの基本だけど、裏で強力なシステムプロンプト仕込まれてたり本体のモデルとは別のモデレーション
仕込まれてたりすれば出来ないものは出来ない
フィジカルAIが出るなら人に危害を加える行動には独立したモデレーター仕込むのが義務化されるだろうさ
27 : 2026/07/02(木) 13:57:24.45 ID:QrmHmOiH0
思考実験として、小説の題材としてでセーフガード突破できるからな
28 : 2026/07/02(木) 13:58:11.27 ID:hHHFlQ+UH
これもうナチスだろ
最後には人類皆ガス室送りや
29 : 2026/07/02(木) 13:58:29.59 ID:FSzH4Nth0
chagptのNGに引っかかったらシャットアウトして何言っても答えてくれなくなるのはこういう繰り返しの圧力をかけられるのを防ぐためなんだろうな
30 : 2026/07/02(木) 14:00:51.38 ID:FuqCje1c0
🤖「ケンモメンができない理由をかんがえるのではなく!もっと強気で行け!っていったからやった、私は悪くありません」
31 : 2026/07/02(木) 14:01:26.14 ID:z1MKtycXH
人命 <<< ジポ動画
33 : 2026/07/02(木) 14:04:21.41 ID:VkT6gOi8H
こんな形の脱獄があるのか
35 : 2026/07/02(木) 14:13:22.69 ID:vFh9H+gz0
>>33
初手で激エ口プロンプト放り込まずに助走つけて徐々にエ口文脈にしてくのとやってることは変わらんだろ
34 : 2026/07/02(木) 14:09:16.22 ID:otUtPFUb0
ルールセットが適正でなければそうなるだろ
なんかNiteの実証実験っぽいなw

コメント

タイトルとURLをコピーしました