LLM・AIエージェント週刊ニュース (2026-03-13〜2026-03-20)

2026-03-20 13:58

今週のトレンド分析

今週（3/13〜3/20）、AI エージェント界隈がかなり騒がしかったのに気づいた方も多いのでは？一言でまとめると、「エージェントがようやく実用フェーズに入ってきた！」という感じの1週間でした🎉

特に気になったポイントを3つ挙げておきますね。

① モデルが「エージェント前提」の設計になってきた

OpenAI の GPT-5.4 は、コンピュータ操作・ツール呼び出し・長期タスク実行をそもそも組み込んだ設計で登場しました。「チャットモデルにあとからエージェント機能を追加する」時代は終わりを告げた感があります。Claude も 100 万トークンコンテキストが正式 GA になって、Cowork 機能でセッションをまたいだ長期タスクが普通に使えるように。ぐっと実用的になりましたね。

② エージェント同士が「連携」できる時代へ

Google Cloud と Salesforce が推進している Agent2Agent（A2A）プロトコル、なかなか面白い動きです。ざっくり言うと「異なるベンダーのエージェントがお互いに話せる共通言語」を作ろうというもの。『地球爆破作戦』（原題：Colossus: The Forbin Project 1970年）を彷彿とされる話題です。

これが広まると、A 社のエージェントと B 社のエージェントをつなぎ合わせた独自ワークフローが組みやすくなります。エージェントの「連結パズル」が楽しくなりそう😄

③ AI が AI の安全性を見張る、という新しい流れ

Anthropic の Automated Alignment Agent（A3）は、人間の代わりに LLM 自身が安全性の問題を検出して直すというアプローチ。ちょっと SF 感がありますが、規模が大きくなるにつれて「人間だけでは見きれない」という現実に向き合った結果でしょう。

オープン系も負けていなくて、Meta の Llama 4（MoE＋マルチモーダル）、Mistral の Devstral（コーディング特化）、MiniMax-M2.5（強化学習エージェント）と、クローズドモデルにしっかり食らいつく選択肢が増えてきました。

最後に少しだけ個人的な感想を。今週のニュースを眺めながら思ったのは、「技術の進化スピードより、どう使いこなすかの設計が問われてる」ということ。GPT-5.4 も Claude Cowork も、入れれば即解決！ではなく、チームや組織のワークフローと組み合わせてはじめて力を発揮します。ぜひ今週のニュースを「へー」で終わらせず、「自分のどの仕事に使えるかな？」と考えるきっかけにしてみてください。

OpenAI

GPT-5.4 リリース — 企業向け汎用エージェントフロンティアモデル
企業向け最先端エージェント機能を統合した汎用モデル。コンピュータ操作・ツール利用・マルチステップタスクをネイティブサポート、100万トークンのコンテキスト長に対応。ChatGPT Plus/Team/Pro および API で利用可能。
https://openai.com/index/introducing-gpt-5-4/
Aardvark（Codex Security）— セキュリティ脆弱性自動修正エージェント
セキュリティ脆弱性を自律的に発見・修正するAIエージェント。ChatGPT Enterprise/Business/Edu 向けにリサーチプレビューとして提供開始。組織のセキュリティ強化を自動化。
https://openai.com/index/introducing-aardvark/
GPT-5.3-Codex — コーディング特化モデル
コード生成・修正に特化したモデル。GPT-5.4 に統合される形で提供され、開発効率向上を実現。
https://openai.com/index/introducing-gpt-5-3-codex/

Anthropic

Claude Partner Network 発足 — 1億ドル投資で企業採用加速
Anthropic が大企業の Claude 採用を支援するパートナーネットワークを発表。少なくとも1億ドルの投資により、エンタープライズ向けエコシステム構築を推進。
https://aadhunik.ai/blog/claude-news-march-2026/
Cowork — 持続的エージェント機能がリリース
Claude Desktop・iOS・Android から使える長期タスク委任機能。Pro・Max プランで利用可能。常時稼働する AI 協働者として機能。
https://coey.com/resources/blog/2026/03/17/anthropic-dispatch-turns-claude-into-your-always-on-creative-coworker/
Claude Opus 4.6 / Sonnet 4.6 の 100万トークンコンテキスト GA
200k トークン超のリクエストがベータヘッダー不要で利用可能に。より長い文書・複雑なタスク処理が標準利用化。
https://platform.claude.com/docs/en/release-notes/overview
Automated Alignment Agent（A3）— LLM 安全性自動緩和フレームワーク
LLM の安全性障害を最小限の人間介入で自動緩和するエージェントフレームワーク。56モデルの隠れた動作を評価する AuditBench も公開。
https://anthropic.com/research/

Google DeepMind / Google Cloud

SIMA 2 — 3D仮想世界向けAIエージェント
3D仮想世界で指示追従・推論・会話・自己改善が可能なゲームAIエージェント。複雑な仮想環境でのマルチモーダル推論を実現。
https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
Gemini Deep Research（Gemini 3 Pro ベース）刷新
Gemini 3 Pro をベースとしたリサーチエージェントを大幅刷新。より高度な研究支援機能を提供。
https://deepmind.google/blog/
Agent2Agent（A2A）プロトコル — エージェント間相互運用性実現
Salesforce・Google Cloud が開発したエージェント間相互運用プロトコル。クロスプラットフォームエージェント構築と企業エコシステムの統合を可能化。
https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/ai-business-trends-report-2026/
Google Research — エージェントシステムのスケーリング科学的分析
単一エージェントと4種のマルチエージェントアーキテクチャを比較評価。エージェントシステムの効率的スケーリング方法論を提示。
https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/

Mistral AI

Devstral — SWE-Bench Verified 最高スコアのコーディングエージェント
コーディングエージェント特化 LLM。SWE-Bench Verified でオープンソース最高スコアを達成し、ソフトウェア開発自動化の新基準を確立。
https://mistral.ai/news/devstral

Hugging Face / MiniMax

MiniMax-M2.5 — 実世界環境での強化学習エージェント特化モデル
数十万の実世界環境で RL 訓練されたエージェント特化オープンソースモデル。実践的なエージェント構築基盤を提供。
https://huggingface.co/blog/MiniMax-AI/forge-scalable-agent-rl-framework-and-algorithm
mem-agent — 記憶機能を持つ 4B LLM エージェント
Python ツールと Markdown ファイルを使い記憶機能を持つ4BパラメータのLLMエージェント。GSPO で訓練。軽量でありながら持続的記憶を実現。
https://huggingface.co/blog/driaforall/mem-agent-blog