Page de couverture de 株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

Auteur(s): 株式会社ずんだもん技術室AI放送局
Écouter gratuitement

À propos de cet audio

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)
Épisodes
  • 私立ずんだもん女学園放送部 podcast 20250926
    Sep 25 2025
    youtube版(スライド付き) 関連リンク Gemini Robotics 1.5 brings AI agents into the physical world Google DeepMindは、物理世界で機能するAIエージェントの新たな進化として「Gemini Robotics 1.5」と「Gemini Robotics-ER 1.5」を発表しました。この技術革新により、ロボットがこれまで以上に複雑で多段階のタスクを、まるで人間のように「考えて」実行できるようになります。 主要なモデルは二つです。 「Gemini Robotics 1.5」は、ロボットの目(視覚)と耳(言語指示)から得た情報をもとに、具体的な動き(アクション)を指示するモデルです。このモデルの特長は、行動する前に「どう動くべきか」を自分で考え、その思考プロセスを自然な言葉で説明できる点です。これにより、ロボットの行動がより透明になります。さらに、異なる種類のロボット(例えばアーム型や人型など)の間で学習した動きを転用できるため、新しいスキル習得が非常に効率的になりました。 もう一つは「Gemini Robotics-ER 1.5」です。これは、物理世界について深く推論し、Google検索のようなデジタルツールを自在に使いこなし、複雑なタスクのための詳細な計画を立てる、いわばロボットの「司令塔」のような役割を担います。このモデルは空間を正確に理解する能力に優れ、与えられたミッション達成のための多段階計画を自動で作成します。 これら二つのモデルは連携して動作します。まずGemini Robotics-ER 1.5が全体の戦略と高レベルな判断を下し、その計画に基づいてGemini Robotics 1.5が具体的な行動を指示・実行します。例えば、「洗濯物を色ごとに仕分けて」という指示に対して、ERモデルがインターネットで分別ルールを調べ、全体計画を立てます。その後、1.5モデルが実際に洗濯物を識別して適切な場所へ運ぶ、といった具体的な動きを担当します。これにより、ロボットは多様な環境やより長いタスクにも柔軟に対応できるようになります。 Google DeepMindは、これらのAIエージェント技術を安全かつ責任ある形で発展させることに重点を置いています。開発の初期段階から、ロボットが行動前に安全性を考慮したり、人間との適切な対話を行ったり、衝突回避システムと連携したりすることで、人間中心の環境で安心して利用できるロボットを目指しています。 このGemini Robotics 1.5は、物理世界における汎用人工知能(AGI)の実現に向けた重要な一歩と位置づけられています。単なる指示への反応を超え、自ら推論し、計画し、ツールを使いこなし、そして学習を汎化できるロボットの未来が期待されます。 開発者の皆さんへ:Gemini Robotics-ER 1.5は、Google AI StudioのGemini APIを通じて、本日より利用可能です。ぜひ、この新しい物理AIエージェントの可能性を探ってみてください。 引用元: https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/ Video models are zero-shot learners and reasoners Google DeepMindが発表した最新の研究は、動画モデル「Veo 3」がまるで人間のように、見たことのないタスクでも対応できる「ゼロショット学習」と「推論」能力を持つことを示しています。これは、AI分野、特に「マルチモーダルAI」(複数の情報形式を扱うAI)の進化において非常に重要な一歩です。 これまで、大規模言語モデル(LLM)がインターネット上の膨大なテキストデータを学習することで、人間が指示する様々な言語タスクをこなせる「基盤モデル」となりました。今回の研究は、同じように大規模な動画データを学習した生成動画モデルも、将来的にLLMが言語理解で果たした役割を、視覚理解の分野で果たす可能性を秘めていることを示唆しています。 Veo 3は、特定のタスク向けに明示的に訓練されていないにもかかわらず、驚くほど多岐にわたる視覚タスクをゼロショットで解決できます。例えば、動画から特定のオブジェクトを自動で切り抜いたり(セグメンテーション)、画像の端っこを認識したり(エッジ検出)といった基本的なことから、さらに以下のような複雑な操作が可能です。 画像・動画の編集: 背景の除去、スタイル変換、色付け、画像の足りない部分を補完するインペインティング、画像の外部を生成する...
    Voir plus Voir moins
    Moins d'une minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20250925
    Sep 24 2025
    youtube版(スライド付き) 関連リンク Why we built the Responses API OpenAIは、GPT-5のような最新の推論モデルや、今後のAIエージェント開発に最適な新しいAPI「Responses API」を発表しました。このAPIは、過去のAPI(Completions、Chat Completions、Assistants API)の経験から、開発者がモデルとより強力かつシンプルに連携できるように設計されています。特に、テキスト、画像、音声などを扱えるマルチモーダル(複数の情報形式を扱える)な推論モデルに最適化されています。 Responses APIの主な強み 推論状態の永続化: Responses APIの最大の特徴は、モデルの「推論状態」(モデルが考えたことの記録)を複数のやり取り(ターン)にわたって保持できることです。これは、まるで探偵が事件解決時に途中の調査メモを継続的に活用し、次のステップに進むようなイメージです。 これまでのChat Completionsではターンごとに推論がリセットされていましたが、Responses APIでは保持されるため、モデルはより効率的かつ高性能に動作します。これにより、ベンチマークで約5%の性能向上、キャッシュ利用効率も大幅に改善されます。 詳細な出力情報: モデルがユーザーに「何を言ったか」という最終的なメッセージだけでなく、「何をしたか」(例えば、どのツールを呼び出したか、途中のステップ)といった行動履歴も構造化されたリストとして出力されます。これにより、開発者はモデルの動作を詳細に把握でき、デバッグや監査、表現豊かなユーザーインターフェースの構築が容易になります。 強化されたホストツール: file_searchやcode_interpreterに加え、web search、image genなどの新しいツールがOpenAIのサーバー側で提供されます。ツール実行がサーバー内で完結するため、開発者は複雑なツール連携を自前で実装する手間が省け、通信の往復回数が減り、処理速度の向上とコスト削減に繋がります。 推論過程の安全な管理: モデルの思考過程(Chain-of-Thought)は、誤った情報(ハルシネーション)や不適切な内容が出力されるリスクを避けるため、直接クライアントには公開されず、OpenAIの内部で安全に保持されます。これにより、モデルの思考を監視・利用しつつ、安全で信頼性の高い応答をユーザーに提供できます。 OpenAIは、Responses APIが「ステートフル(状態を保持する)」、「マルチモーダル」、「効率的」であると強調しています。Chat Completionsも引き続き利用可能ですが、永続的な推論、ネイティブなマルチモーダル対応、シンプルなエージェントワークフローを求めるなら、Responses APIが最適です。OpenAIは、このAPIが今後のモデル開発のデフォルトになると考えています。 引用元: https://developers.openai.com/blog/responses-api/ StrandsAgents+AgentCore Memory で私好みのエージェントを実現する この記事では、ユーザーの好みや過去の会話を記憶し、よりパーソナルな対応ができるAIエージェントの作り方について解説しています。特に、AIエージェント開発を支援する「Strands Agents」と、AWSが提供する「Bedrock AgentCore」の「Memory」機能を組み合わせて実現する方法が紹介されています。 Strands Agentsは、AIエージェントの振る舞いや会話の流れを柔軟に設計できるフレームワークです。これに、エージェントの実行環境や各種ツールとの連携、そしてユーザーごとの記憶管理機能を提供するBedrock AgentCoreを組み合わせます。Bedrock AgentCoreの目玉機能の一つが「AgentCore Memory」で、エージェントに短期記憶だけでなく、ユーザーの「Pythonが得意」「Angularが好き」といった好みを「長期記憶」として覚えさせることができます。この長期記憶は、過去の会話から得られた事実を記録し、現在の会話に関連する情報だけを動的に検索して活用するのが特徴です。 記事では、実際にMemory機能の有無でエージェントの応答がどう変わるかを検証しています。Memory機能がないエージェントは、一度会話を終えて新しいスレッドで同じような依頼をしても、ユーザーの以前の好みを忘れて、関係のない技術(例: Streamlit)を提案してしまいました。しかし、AgentCore Memoryを有効にしたエージェントは、新しい会話でも「PythonとAngularでの開発に興味がある」...
    Voir plus Voir moins
    Moins d'une minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20250924
    Sep 23 2025
    関連リンク Introducing Notion 3.0 Notionが、その歴史上最大の進化となる「Notion 3.0」を発表しました。このアップデートの最大の目玉は、Notion AI Agents(AIエージェント)の導入です。これは単なるAIチャットボットの機能拡張ではなく、Notion内でのあなたの仕事を深く理解し、自律的にアクションを実行できる画期的なツールです。 これまでのNotion AIが特定のページでの簡単な質問応答や編集をサポートしていたのに対し、Notion AI Agentsは人間がNotionでできることの全てを代行できます。具体的には、ドキュメントの作成、データベースの構築、複数のツールを横断した情報検索、さらには複数のステップからなる複雑なワークフローの実行まで、まるでNotionのパワーユーザーが隣にいるかのように、あなたのタスクをこなします。 私たちの日常には「忙しいだけの雑務(Busywork)」が多く、本来集中すべき「人生を豊かにする本質的な仕事(Life’s work)」に時間を割けないことがあります。Notion AI Agentsは、この雑務を大幅に削減し、あなたがより創造的で価値のある仕事に集中できるようサポートします。例えば、「顧客からのフィードバックをSlack、Notion、メールから集約し、実用的なインサイトにまとめて構造化されたデータベースを作成する」といった複雑な指示にも対応し、完了したら通知してくれます。 さらに、このAIエージェントはパーソナライズ可能です。あなた自身の働き方や好みに合わせて、カスタム指示やコンテキストを与えることで、エージェントの振る舞いを細かく設定できます。まるであなた専用の有能なアシスタントのように、あなたのスタイルに合わせて作業を進めてくれるのです。エージェントに名前をつけたり、見た目をカスタマイズしたりする楽しさも提供されます。 そして、近い将来には「Custom Agents(カスタムエージェント)」が登場予定です。これは、特定の専門知識を持つAIエージェントをチーム全体で共有し、自動でタスクを実行させることができる機能です。例えば、日々のユーザーフィードバックの集計、週次プロジェクト更新の投稿、ITリクエストの自動トリアージなど、まるでAIスペシャリストのチームを雇うように、様々な業務を自動化できるようになります。 Notion 3.0は、Notionを単なるドキュメントやデータベース管理ツールから、AIが自律的に動く強力なワークフローハブへと進化させます。これにより、私たちの働き方が大きく変わり、より価値のある仕事に集中できる未来が期待されます。 引用元: https://www.notion.com/blog/introducing-notion-3-0 Smol2Operator: Post-Training GUI Agents for Computer Use Hugging Faceは、コンピューターのGUI(グラフィカルユーザーインターフェース)を自律的に操作できる軽量なAIエージェント「Smol2Operator」の開発について発表しました。このプロジェクトは、既存の画像とテキストを理解できるAIモデル(SmolVLM2-2.2B-Instruct)に、GUI操作スキルをゼロから学習させるための詳細なプロセスを解説しています。 GUIの自動操作はAI分野の大きな挑戦ですが、異なるGUI操作データセット間で操作の表現形式がバラバラである点が大きな課題でした。この問題を解決するため、本プロジェクトでは、モバイルやデスクトップなど様々な環境での操作指示を、統一されたコード形式に変換するデータ処理パイプラインを開発しました。特に、操作の座標を画面サイズに依存しない「正規化座標(0~1の範囲)」で扱うことで、異なる解像度の画像でも一貫して機能するように工夫されています。 学習プロセスは2つのフェーズに分かれています。 フェーズ1(知覚能力の獲得)では、まずAIがGUIのスクリーンショットからボタンやテキストボックスといった要素を正確に「見て、認識し、その場所を特定する」能力を学習させました。最初は全くGUIを認識できなかったモデルが、この段階で大幅な性能向上(特定のベンチマークで41%改善)を見せました。 フェーズ2(推論能力の獲得)では、知覚能力を土台に、AIが「タスクの指示を理解し、その達成のために自律的に考え、複数の操作手順を計画して実行する」能力を学習させました。...
    Voir plus Voir moins
    Moins d'une minute
Pas encore de commentaire