CloudflareのWorkers AIプラットフォームは、月之暗面(Moonshot AI)のKimi K2.5を正式に導入し、256Kのコンテキスト、多ターンツール呼び出し、ビジュアル入力をサポートしています。Cloudflare内部のセキュリティ監査エージェントは毎日700億以上のトークンを処理しており、切り替え後のコストは中程度の商用モデルと比べて77%削減されています。
(前提情報:CursorはKimi K2.5を用いてモデルを訓練したが公表せず、開発者のパケットキャプチャや削除、公式の急な方針転換の記録も残っている)
(背景補足:クローラー対策のCloudflareは、「ワンクリック全サイトクローラーAPI」をリリースし、RAGや増分更新、モデル訓練を完璧にサポート)
本文目次
Toggle
CloudflareのWorkers AIプラットフォームは、ひっそりと大きな進展を遂げており、公式ブログによると、月之暗面のKimi K2.5をAgents SDKスターターのデフォルトモデルに設定しました。Cloudflareのエンジニアも実際のセキュリティ監査にこれを使っており、多くのコスト削減を実現しています。
Kimi K2.5は、現存のオープンソースの中でも「最先端規格」に対応したモデルの一つで、256Kのコンテキストウィンドウ、多ターンツール呼び出し、ビジュアル入力、構造化出力をサポートしています。長文推論を必要とするエージェントタスクには非常に有用です。
CloudflareのエンジニアはOpenCode環境で、Kimi K2.5をプログラミングエージェントの主要モデルとして直接使用し、「Bonk」という公開コードレビューエージェントも自動化パイプラインに組み込んでいます。
特に注目すべきは内部のセキュリティ監査シナリオです。このエージェントは毎日700億以上のトークンを処理しています。標準的な商用モデルで同じ作業を行った場合、年間約240万ドルのコストがかかるところ、Kimi K2.5に切り替えることでコストは77%削減され、約185万ドルの節約となっています。
この数字は広告ではなく、Cloudflareのエンジニアが公式ブログで公開した実績です。
モデルの切り替えだけでは不十分であり、Cloudflareはエージェントの長期対話シナリオにおけるコストと効率の問題に対応するため、プラットフォームレベルで以下の3つの改善を同時に導入しました。
Cloudflareは既成の推論フレームワークを使わず、自社開発のInfire推論エンジンをコアにカスタマイズしています。データ並列、テンソル並列、エキスパート並列化を採用し、分離型のプレフィックス処理アーキテクチャと組み合わせています。
現在、Kimi K2.5はWorkers AI上での大規模モデル推論の最初の事例であり、CloudflareのAIインフラに対する野心を示しています。ネットワークプラットフォームと連携しながら、コストも非常に安価です。