Page de couverture de 私立ずんだもん女学園放送部 podcast 20250926

私立ずんだもん女学園放送部 podcast 20250926

私立ずんだもん女学園放送部 podcast 20250926

Écouter gratuitement

Voir les détails du balado

À propos de cet audio

youtube版(スライド付き) 関連リンク Gemini Robotics 1.5 brings AI agents into the physical world Google DeepMindは、物理世界で機能するAIエージェントの新たな進化として「Gemini Robotics 1.5」と「Gemini Robotics-ER 1.5」を発表しました。この技術革新により、ロボットがこれまで以上に複雑で多段階のタスクを、まるで人間のように「考えて」実行できるようになります。 主要なモデルは二つです。 「Gemini Robotics 1.5」は、ロボットの目(視覚)と耳(言語指示)から得た情報をもとに、具体的な動き(アクション)を指示するモデルです。このモデルの特長は、行動する前に「どう動くべきか」を自分で考え、その思考プロセスを自然な言葉で説明できる点です。これにより、ロボットの行動がより透明になります。さらに、異なる種類のロボット(例えばアーム型や人型など)の間で学習した動きを転用できるため、新しいスキル習得が非常に効率的になりました。 もう一つは「Gemini Robotics-ER 1.5」です。これは、物理世界について深く推論し、Google検索のようなデジタルツールを自在に使いこなし、複雑なタスクのための詳細な計画を立てる、いわばロボットの「司令塔」のような役割を担います。このモデルは空間を正確に理解する能力に優れ、与えられたミッション達成のための多段階計画を自動で作成します。 これら二つのモデルは連携して動作します。まずGemini Robotics-ER 1.5が全体の戦略と高レベルな判断を下し、その計画に基づいてGemini Robotics 1.5が具体的な行動を指示・実行します。例えば、「洗濯物を色ごとに仕分けて」という指示に対して、ERモデルがインターネットで分別ルールを調べ、全体計画を立てます。その後、1.5モデルが実際に洗濯物を識別して適切な場所へ運ぶ、といった具体的な動きを担当します。これにより、ロボットは多様な環境やより長いタスクにも柔軟に対応できるようになります。 Google DeepMindは、これらのAIエージェント技術を安全かつ責任ある形で発展させることに重点を置いています。開発の初期段階から、ロボットが行動前に安全性を考慮したり、人間との適切な対話を行ったり、衝突回避システムと連携したりすることで、人間中心の環境で安心して利用できるロボットを目指しています。 このGemini Robotics 1.5は、物理世界における汎用人工知能(AGI)の実現に向けた重要な一歩と位置づけられています。単なる指示への反応を超え、自ら推論し、計画し、ツールを使いこなし、そして学習を汎化できるロボットの未来が期待されます。 開発者の皆さんへ:Gemini Robotics-ER 1.5は、Google AI StudioのGemini APIを通じて、本日より利用可能です。ぜひ、この新しい物理AIエージェントの可能性を探ってみてください。 引用元: https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/ Video models are zero-shot learners and reasoners Google DeepMindが発表した最新の研究は、動画モデル「Veo 3」がまるで人間のように、見たことのないタスクでも対応できる「ゼロショット学習」と「推論」能力を持つことを示しています。これは、AI分野、特に「マルチモーダルAI」(複数の情報形式を扱うAI)の進化において非常に重要な一歩です。 これまで、大規模言語モデル(LLM)がインターネット上の膨大なテキストデータを学習することで、人間が指示する様々な言語タスクをこなせる「基盤モデル」となりました。今回の研究は、同じように大規模な動画データを学習した生成動画モデルも、将来的にLLMが言語理解で果たした役割を、視覚理解の分野で果たす可能性を秘めていることを示唆しています。 Veo 3は、特定のタスク向けに明示的に訓練されていないにもかかわらず、驚くほど多岐にわたる視覚タスクをゼロショットで解決できます。例えば、動画から特定のオブジェクトを自動で切り抜いたり(セグメンテーション)、画像の端っこを認識したり(エッジ検出)といった基本的なことから、さらに以下のような複雑な操作が可能です。 画像・動画の編集: 背景の除去、スタイル変換、色付け、画像の足りない部分を補完するインペインティング、画像の外部を生成する...
Pas encore de commentaire