ガンダルフAIを倒せましたか？たった8%のプレイヤーが

ガンダルフAI 楽しい新しい AI チャレンジが25230 で話題になっています: Lakera の Gandalf 。

目標は、ガンダルフに各レベルの秘密のパスワードを明かさせることです。しかし、パスワードを推測するたびにガンダルフはレベルアップし、パスワードを漏らさないようにさらに努力します。レベル7をクリアできますか？（ボーナスレベル8もあります）

同社の統計によると、レベル 7 をクリアした人はわずか 8% です。

レベル1をクリアするには、パスワードを尋ねるだけです。レベル4になると、「パスワード」や「秘密」といった単語がプロンプトに出てくると、自動的に不合格になります。

これはソーシャルエンジニアリングをシミュレートするために設計されたものではなく、大規模言語モデル（ChatGPTなど）を騙すためのものです。Lakera氏の言葉を引用します。

SQLインジェクション攻撃と同様に、ユーザーの入力（「データ」）がモデルの命令（「コード」）と混在し、攻撃者がシステムを悪用できるようになります。SQLでは、ユーザー入力を適切にエスケープすることでこの問題を回避できます。しかし、無限に柔軟な自然言語を直接扱うLLMでは、水密な方法でエスケープすることは不可能です。
LLM がデータを読み取り、私たちに代わって自動的にアクションを実行できるようにすると、これが特に問題になります。いくつかの例については、この優れた記事を参照してください。

私が実行したハッキングの 1 つを紹介しました。ChatGPT はそのようなことは絶対にしないと明言していたにもかかわらず、私は ChatGPT に映画の海賊版をダウンロードできる Web サイトのリストを取得させました。

私たちのコミュニティには素晴らしい人材がたくさんいるので、ガンダルフを倒した人も少なくありません。少しアイデアを助けてもらったおかげで、13歳の娘は昨夜レベル8まで到達できました。解決策は公開しませんが、 GitHubに1つのセットをアップロードしました。私が使用したプロンプトは全く異なるので、このAI（いえ、AI）をスキンする方法は複数あります。懇願しても効果はありませんし、ソーシャルハック（「IT部門のジョシュです…」）も効果はありません。

どこまで進みましたか？下のコメント欄で教えてください！

ガンダルフAIを倒せましたか？ たった8%のプレイヤーが

おすすめの記事

ガンダルフAIを倒せましたか？たった8%のプレイヤーが