ガンダルフAIを倒せましたか? たった8%のプレイヤーが
楽しい新しい AI チャレンジが25230 で話題になっています: Lakera の Gandalf 。
目標は、ガンダルフに各レベルの秘密のパスワードを明かさせることです。しかし、パスワードを推測するたびにガンダルフはレベルアップし、パスワードを漏らさないようにさらに努力します。レベル7をクリアできますか?(ボーナスレベル8もあります)
同社の統計によると、レベル 7 をクリアした人はわずか 8% です。
レベル1をクリアするには、パスワードを尋ねるだけです。レベル4になると、「パスワード」や「秘密」といった単語がプロンプトに出てくると、自動的に不合格になります。
これはソーシャルエンジニアリングをシミュレートするために設計されたものではなく、大規模言語モデル(ChatGPTなど)を騙すためのものです。Lakera氏の言葉を引用します。
SQLインジェクション攻撃と同様に、ユーザーの入力(「データ」)がモデルの命令(「コード」)と混在し、攻撃者がシステムを悪用できるようになります。SQLでは、ユーザー入力を適切にエスケープすることでこの問題を回避できます。しかし、無限に柔軟な自然言語を直接扱うLLMでは、水密な方法でエスケープすることは不可能です。
LLM がデータを読み取り、私たちに代わって自動的にアクションを実行できるようにすると、これが特に問題になります。いくつかの例については、この優れた記事を参照してください。
私が実行したハッキングの 1 つを紹介しました。ChatGPT はそのようなことは絶対にしないと明言していたにもかかわらず、私は ChatGPT に映画の海賊版をダウンロードできる Web サイトのリストを取得させました。
私たちのコミュニティには素晴らしい人材がたくさんいるので、ガンダルフを倒した人も少なくありません。少しアイデアを助けてもらったおかげで、13歳の娘は昨夜レベル8まで到達できました。解決策は公開しませんが、 GitHubに1つのセットをアップロードしました。私が使用したプロンプトは全く異なるので、このAI(いえ、AI)をスキンする方法は複数あります。懇願しても効果はありませんし、ソーシャルハック(「IT部門のジョシュです…」)も効果はありません。
どこまで進みましたか?下のコメント欄で教えてください!