Gateアプリをダウンロードするにはスキャンしてください
qrCode
その他のダウンロードオプション
今日はこれ以上表示しない

クラウドオーパス4.5登場!精度がGPT-5.1とジェミニ3を大きく上回り、楽天:自己進化が強力です。

ちょうど Google が Gemini 3 を発表してから1週間後、Anthropic は 11/25 に最新のフラッグシップモデル Claude Opus 4.5 を発表し、このバージョンがプログラミング、AI エージェント操作、コンピュータアプリケーションの使用において大幅にアップグレードされ、より長い対話内容を処理できることを示しました。Anthropic の開発者関係責任者である Alex Albert は、インタビューの中で次のように述べています。「これが世界で最もサトシなモデルです。」

Claude Opus 4.5 の最強のハイライトを一度に見る

ハイライト1:性能がGPT-5.1とGemini 3を打ち負かし、代理アプリケーションを強化する

公式は Opus 4.5 を「世界最強モデルの一つ」と位置付け、即日より App、API、および三大クラウドプラットフォーム (AWS、GCP、Azure) で利用可能にしました。Anthropic が提供した AI モデルの性能比較図からは次のことがわかります:

「Opus 4.5 は高い80.9 %の精度を持ち、Gemini 3 ProやGPT-5.1を凌駕しています。」

公式は、今回のOpus 4.5がプログラミング、AIエージェント、多段階推論、コンピュータツールの操作に特に優れていると述べており、長文研究やPowerPoint、Excelなどの一般的な作業でも明らかにパフォーマンスが向上している。

新しい価格設定は、100万トークンの入力が5ドル、100万トークンの出力が25ドルとなり、前のバージョンのOpus 4.1よりも手頃になりました。これにより、より多くの企業やチームがOpusレベルの機能を採用できるようになります。

ポイント2:内部テストで一貫した高評価、理解できるし問題も解決できる

Anthropicは、テスト版をリリースした後、チームメンバーから一貫したフィードバックを受け取ったと明らかにしました。特に:

「Opus 4.5 は、いくつかの曖昧な問題や推論のバランスを処理でき、多システムの複雑なバグに遭遇した際には自ら解決策を探ります。」

元々 Sonnet 4.5 がほとんどできなかったタスクが、今では Opus 4.5 で達成可能になりました。テスターたちは一般的に Opus 4.5 が「ユーザーの意図をよく理解している」と述べており、公式もこれが明らかな体験の違いをもたらすと考えています。

Windsurf、GitHub の CEO も Opus 4.5 を支持しています。ハイライト 3:プログラムテストの革新記録、2 時間の問題で人間を超えるパフォーマンス。

Anthropicは、エンジニアを採用する際に、相当難易度の高い実技テストを使用することを指摘しました。今回、同じ2時間の回答時間内で、Claude Opus 4.5のパフォーマンスがこれまでのすべての人間の求職者を超え、新記録を樹立しました。

公式補足、このテストは主に技術能力とストレス下での判断力を評価するものであり、協力やコミュニケーションなどのソフトスキルには関与していません。しかし、今回の結果から、AIがエンジニアリング分野の純技術的側面で急速に進歩していることがわかります。

ハイライト4:セキュリティの強化、ヒントインジェクション攻撃に対してさらに騙されにくくなりました。

Anthropicは、Opus 4.5がこれまでで「最も整合性が高く、最も安全な」モデルバージョンであると強調しています。

今回のセキュリティアップグレードの重点は、モデルがプロンプトインジェクション攻撃に対する抵抗力が大幅に向上したことで、悪意のある指令がモデルに取り込まれにくくなり、システムを欺いて不適切な行動を誤って実行させることがさらに難しくなった点です。他の最前線モデルと比較して、Opus 4.5も関連するセキュリティテストで最高の成績を収めています。下の図からわかるように:

「Opus 4.5 は、他の有名なモデルと同じテスト条件下で、最も騙されにくく、最もプロンプトインジェクション攻撃に成功しにくい、防御性能が優れている。」

ポイント5:長時間の対話を途切れさせず、Chromeとアプリで体験を全面的に向上

Anthropicは同時に複数の製品を更新しました。まず、Claude CodeのPlan Modeがさらにアップグレードされ、問題を明確にした後に自動的に編集可能なplan.mdを生成し、その後プログラムを実行します。デスクトップ版には複数のセッションが追加され、複数のエージェントが異なるタスクを同時に実行できるようになります。

一般ユーザーがよく使用するClaude Appも改良され、長い対話が文脈が長すぎるために止まることはなくなり、システムが前の内容を自動的に整理して対話が途切れないようにします。Claude for ChromeはMaxユーザーに全面的に開放され、複雑な操作をタブ間で処理できます。

Claude for Excelは元々Betaユーザーに限定されていましたが、現在はMax、Team、Enterpriseユーザーに拡大され、Opus 4.5と組み合わせて表計算とデータ処理能力が強化されました。最後に、Anthropicは全体の使用量上限を引き上げ、Opus専用の制限を解除し、MaxとTeam Premiumユーザーが「日常的な作業量」のレベルでOpus 4.5を使用できるようにしました。将来的により強力なモデルが提供される場合、関連する使用量も再調整される予定です。

( 注意事項:

plan.md

外部ファイルではなく、Claude Codeがタスクを実行する前に自動生成する「タスク計画ファイル」で、フォーマットは一般的なMarkdownを採用しています。)

二点六:楽天は Opus 4.5 が自己進化機能を持っていると指摘した

その中で特別な注目点は、日本の楽天 (Rakuten) が指摘したように、Claude Opus 4.5 は自己進化型 AI エージェントにおいて明らかな突破を示しています。

オフィスオートメーションの実際の応用において、関連するエージェントプログラムは自ら能力を最適化でき、わずか4回のイテレーションで最高のパフォーマンスを達成しますが、他のモデルは10回実行しても同等の品質には追いつけません。

楽天は、この違いがOpus 4.5を企業向けアプリケーションでより高い効率を示すことを強調しています。

この記事は Claude Opus 4.5 の登場です!精度は GPT-5.1 と Gemini 3 を大きく上回り、楽天:自己進化が強い。最初に登場したのは ブロックチェーンニュース ABMedia です。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン