Ep.707 Grok 4.1──“感情もわかる相棒”を目指すxAIの最新モデル(2025年11月20日配信)
Échec de l'ajout au panier.
Échec de l'ajout à la liste d'envies.
Échec de la suppression de la liste d’envies.
Échec du suivi du balado
Ne plus suivre le balado a échoué
-
Narrateur(s):
-
Auteur(s):
À propos de cet audio
xAIは最新モデル「Grok 4.1」を公開し、grok.comおよびX、iOS/Androidアプリで順次有効化しました。既定ではAutoモードで配信され、モデルピッカーから“Grok 4.1”を明示選択できます。位置づけは“実利用のしやすさ”の強化で、創造性・感情理解・協調的対話の質を引き上げつつ、従来の知性や信頼性は維持したと述べています。
品質検証は11月1日から14日までのサイレント・ロールアウトで実施。本番トラフィック上でブラインドのペア比較を回し、直前の本番モデルに対して64.78%の割合で4.1が好まれた、と社内計測を開示しました。
外部可視の指標としては、LMArenaのText Arenaで“Thinking”モードがElo 1483で全体1位、“Non-Reasoning”モードも1465で2位と主張。非推論の高速モードが他社の思考モードを上回る、ともアピールしています(思考モード=コード名quasarflux/高速モード=tensor)。ベンチマーク値は公開リーダーボード準拠で算出したと説明されました。
“感情面の受け止め”は今回の見せ場です。EQ-Bench3での評価プロトコルや採点者(Claude Sonnet 3.7をジャッジに指定)を明示し、悲嘆への応答例などを掲載。単なる共感フレーズに終わらず、状況を咀嚼して寄り添う語り口に改善した、としています。
事実性の面では、特に高速(非推論)モードで検索ツール併用時の“誤情報率”低減を狙ったポストトレーニングを実施し、実トラフィック由来の情報探索プロンプトで有意な低下を観測したと報告。外部報道は「従来比3分の1まで低下」とxAIの主張を紹介しています。社内評価ではFActScoreでも改善傾向が示されたと記載されました。
運用視点では、Grok 4.1は“即答が欲しい場面はNon-Reasoning、腰を据える課題はThinking”という二段構えを前提に、Autoモードで自動出し分ける設計。xAIは4系で確立した大規模RL基盤を使い、スタイルやパーソナリティ、整合性を“報酬モデル化”して大量の自動評価ループで磨いたと説明しており、4.1はその延長線上にある進化版という位置づけです。
最後に背景を一言。xAIはGrok 3/4の段階から“推論強化”を看板に競争を仕掛けてきました。4.1はその路線に“感情・創作・協調”の色を濃く足し、日常の会話体験やブランドの声に寄り添う方向へ舵を切った印象です。顧客接点や社内アシスタントへの適用では、感情理解の“効き”と事実性のバランスをどう設計するか――ここが実装の腕の見せ所になりそうですね。