• 株式会社ずんだもん技術室AI放送局 podcast 20250507

  • May 6 2025
  • Durée: Moins d'une minute
  • Podcast

株式会社ずんだもん技術室AI放送局 podcast 20250507

  • Résumé

  • 関連リンク DoomArena: A framework for Testing AI Agents Against Evolving Security Threats この論文は、「AIエージェント」と呼ばれる、私たちの代わりに様々な作業を自動で行ってくれるプログラムのセキュリティをしっかり評価するための新しい仕組み「DoomArena」について紹介しています。AIエージェントはこれから色々な場所で活躍が期待されていますが、もし悪意のある攻撃に弱かったら困りますよね。そこで、どんな脅威に対してどのくらい強いのかをテストすることがとても重要になります。 DoomArenaは、このセキュリティテストをもっとやりやすくするために、以下の3つの考え方で作られています。 プラグイン可能: Webサイトを操作するエージェントや、他のツールを呼び出して使うエージェントなど、現在ある様々なエージェントの実行環境に簡単に追加して使えます。設定可能: どんな部分を攻撃対象にするか、どのような脅威を想定するか(例えば、悪いユーザーが操作する場合か、エージェントが使っている環境自体が悪い場合かなど)を細かく設定できます。モジュール式: 攻撃手法自体と、その攻撃をどの環境で実行するかを分けられるので、一度作った攻撃を色々な種類のエージェントや環境に対して試すことができます。 DoomArenaを使うことで、新しい種類の脅威にも対応しやすくなったり、これまでに考えられていた様々な攻撃手法を組み合わせて、より厳しく、きめ細かいセキュリティテストができるようになります。また、エージェントが持つ様々な弱点(脆弱性)と、本来の性能とのバランス(トレードオフ)を分析することも可能です。 このフレームワークを使って、現在最新のAIエージェントをテストしたところ、いくつか面白いことがわかりました。 最新のエージェントでも、想定する脅威の種類(悪意のあるユーザーによるものか、環境によるものかなど)によって、どのくらい脆弱かが異なり、全ての脅威に対して完璧に強いエージェントは見つかりませんでした。複数の攻撃を同時に仕掛けると、個別の攻撃よりもずっと効果的になる場合が多いです。特定のルール(ガードレール)で動きを制限するような簡単な防御策は効果が薄い傾向がありましたが、高性能な最新のAIモデル(LLM)を使った防御策はより有効なようです。 このDoomArenaフレームワークは公開されており、AIエージェントの開発者やセキュリティに関心のあるエンジニアが利用できるようになっています。AIエージェントをより安全に開発していく上で役立つツールと言えるでしょう。 引用元: https://arxiv.org/abs/2504.14064 LLM Performance Benchmarking: Measuring NVIDIA NIM Performance with GenAI-Perf LLM(大規模言語モデル)を使ったアプリケーションを開発する際、その性能を把握することは非常に重要です。これは、どこに改善の余地があるかを見つけたり、サービス品質(レイテンシなど)と処理能力(スループット)のバランスを調整したり、どれくらいの数のサーバーが必要かを見積もったりするために役立ちます。 この記事では、LLMの性能を測るためのツール「NVIDIA GenAI-Perf」と、NVIDIAが提供するLLM推論サービス「NVIDIA NIM」を組み合わせてMetaのLlama 3モデルの性能を評価する方法が解説されています。 GenAI-Perfは、LLMサービスの応答性能をクライアント側から測定できるツールです。具体的には、最初の単語が表示されるまでの時間(Time to First Token: TTFT)、単語が出てくる間隔(Inter-token latency: ITL)、1秒あたりの単語数(Tokens per second: TPS)、1秒あたりのリクエスト数(Requests per second: RPS)といった重要な指標を測ることができます。GenAI-Perfは業界標準となっているOpenAI APIの仕様に準拠した多くのLLMサービスに対応しています。 NVIDIA NIMは、LLMを素早く簡単に、そして高性能に動かすためのソフトウェアパッケージです。高性能なLLM(例えばLlama 3)をOpenAI API互換の形式で提供できるのが特徴です。 記事では、実際にNIMを使ってLlama 3モデルを起動し、次にGenAI-Perfを使って性能を測定する手順が紹介されています。具体的なコマンド例や、入力や出力の文章の長さ、同時に処理するリクエスト数(同時接続数)...
    Voir plus Voir moins

Ce que les auditeurs disent de 株式会社ずんだもん技術室AI放送局 podcast 20250507

Moyenne des évaluations de clients

Évaluations – Cliquez sur les onglets pour changer la source des évaluations.