Claude Opus 4.5 sahneye çıktı! Doğruluk oranı GPT-5.1 ve Gemini 3'ü geride bıraktı, Rakuten: kendini evrimleştiriyor.

ChainNewsAbmedia

2025-11-25 08:54:29

Google'un Gemini 3'ü piyasaya sürmesinden sadece bir hafta sonra, Anthropic 11/25 tarihinde en son amiral gemisi modeli Claude Opus 4.5'i tanıttı. Bu versiyonun program yazma, AI ajan operasyonları ve bilgisayar uygulamaları kullanımı konusunda büyük bir yükseliş sağladığını ve daha uzun diyalog içeriklerini işleyebildiğini belirtti. Anthropic'in geliştirici ilişkileri müdürü Alex Albert, bir röportajda bu konuda şunları söyledi: “Bu, dünyanın en akıllı modeli.”

Claude Opus 4.5 en güçlü özelliklerini bir arada görün

Öne Çıkan Özellikler 1: GPT-5.1 ve Gemini 3'ü geçerek performansı artırmak, aracılık uygulamalarını güçlendirmek.

Resmi olarak Opus 4.5, “dünyanın en güçlü modellerinden biri” olarak konumlandırılmıştır ve bugünden itibaren App, API ve üç büyük bulut platformu (AWS, GCP, Azure) üzerinde kullanılabilir. Anthropic tarafından sağlanan AI model performans karşılaştırma grafiğinden anlaşılmaktadır:

“Opus 4.5, %80.9'a kadar doğruluk oranına sahip ve Gemini 3 Pro ile GPT-5.1'i geride bırakıyor.”

Resmi olarak, bu sefer Opus 4.5'in programlama, AI Ajanları, çok adımlı akıl yürütme ve bilgisayar araçları kullanımı konusunda özellikle öne çıktığı, genel işler gibi uzun araştırmalar, PowerPoint, Excel gibi uygulamalarda da belirgin bir şekilde güçlendiği belirtildi.

Yeni fiyatlandırma, her milyon girdi token için 5 dolar, her milyon çıktı için 25 dolar olarak belirlendi. Bu, önceki nesil Opus 4.1'den daha erişilebilir hale geldi ve daha fazla işletme ve ekibin Opus seviyesindeki özellikleri benimsemesine olanak tanıyor.

Öne çıkan özellikler: İç testler sürekli olumlu geri dönüşler aldı, anlayabiliyor ve sorunları çözebiliyor.

Anthropic, test sürümünü yayınladıktan sonra ekip üyelerinin tutarlı geri bildirimde bulunduğunu açıkladı. Özellikle:

“Opus 4.5, belirsiz sorunları ve çıkarım dengelerini ele alabilir, çok sistemli karmaşık hatalarla karşılaştığında kendi başına çözüm arayışına girecektir.”

Eskiden Sonnet 4.5'in neredeyse başaramadığı görev, artık Opus 4.5 tarafından tamamlanabiliyor. Test edenler genel olarak Opus 4.5'in “kullanıcının niyetini” çok iyi anladığını belirtiyor, resmi olarak da bu durumun belirgin bir deneyim farkı yarattığı kabul ediliyor.

Windsurf, GitHub gibi CEO'lar Opus 4.5'i destekliyor. Öne çıkan üç özellik: Program testinde yenilikçi bir rekor, iki saatlik sınav performansı insanları geride bıraktı.

Anthropic, mühendis işe alımında oldukça zor bir uygulama testi kullandığını belirtti. Bu sefer aynı iki saatlik cevap verme süresi içinde, Claude Opus 4.5'in performansı tüm insan adayları arasında yıllar içinde aşarak yeni bir rekor kırdı.

Resmi ekleme, bu testin temel olarak teknik yetenekler ve stres altındaki karar verme yeteneğini değerlendirdiği, iş birliği, iletişim gibi yumuşak becerileri kapsamadığıdır. Ancak bu sonuçlardan, AI'nın mühendislik alanındaki saf teknik düzeyde son derece hızlı bir şekilde ilerlediği görülebiliyor.

Dördüncü nokta: Güvenlik daha da güçlendirildi, uyarı enjeksiyon saldırılarına karşı daha zor kandırılacak.

Anthropic, Opus 4.5'in şimdiye kadarki “en uyumlu ve en güvenli” model versiyonu olduğunu vurguladı.

Bu kezki güvenlik güncellemesinin odak noktası, modelin istemci enjeksiyon saldırılarına karşı direncinin önemli ölçüde artmasıdır. Kötü niyetli komutların modele kolayca dahil edilmesi zorlaşmış ve sistemi yanlış davranışlar sergilemeye kandırmak daha zor hale gelmiştir. Diğer öncü modellere kıyasla, Opus 4.5 ilgili güvenlik testlerinde de en iyi sonuçları elde etmiştir. Aşağıdaki resimden anlaşılmaktadır:

“Opus 4.5, diğer tanınmış modellerle aynı test koşullarında, en az kandırılabilen, en az ipucu enjeksiyon saldırısına karşı başarılı olan modeldir ve savunma performansı dikkat çekicidir.”

Öne Çıkan Beş: Uzun sohbetler kesintisiz, Chrome ve Uygulama deneyimini tamamen geliştiriyor.

Anthropic ayrıca birçok ürününü güncelledi. Öncelikle, Claude Code'un Plan Modu daha da geliştirildi, sorunları netleştirdikten sonra otomatik olarak düzenlenebilir bir plan.md oluşturacak ve ardından program çalıştırılacak. Masaüstü sürümüne de çoklu Oturum eklendi, böylece birden fazla temsilci farklı görevleri aynı anda yürütebilecek.

Genel kullanıcıların sıkça kullandığı Claude App de eş zamanlı olarak geliştirildi, uzun diyaloglar artık bağlam çok uzun olduğu için takılmıyor, sistem önceki içeriği otomatik olarak düzenleyerek diyalogun kesintiye uğramasını önlüyor. Claude for Chrome ise tamamen Max kullanıcılarına açıldı, karmaşık işlemleri sekmeler arasında gerçekleştirebiliyor.

Claude for Excel başlangıçta yalnızca Beta kullanıcılarıyla sınırlıyken, artık Max, Team ve Enterprise kullanıcılarına da genişletildi ve Opus 4.5 ile birlikte tablo ve veri işleme yetenekleri güçlendirildi. Son olarak, Anthropic genel kullanım sınırını da artırdı, Opus'a özel kısıtlamayı kaldırdı ve Max ile Team Premium kullanıcılarının Opus 4.5'i “günlük iş yükü” seviyesinde kullanmalarına olanak sağladı, gelecekte daha güçlü modeller piyasaya sürüldüğünde ilgili kullanım da tekrar ayarlanacak.

( not:

plan.md

Dış bir dosya değil, Claude Code'un görevleri yerine getirmeden önce otomatik olarak oluşturduğu bir "görev planı dosyası"dır. Format yaygın Markdown olarak kullanılır. )

İki nokta altı: Rakuten, Opus 4.5'in kendini evrim geçirebilme özelliğine sahip olduğunu belirtti.

Özellikle dikkat çeken bir nokta, Japonya'nın Rakuten (Rakuten)'un, Claude Opus 4.5'in kendini geliştiren AI ajanları üzerinde belirgin bir atılım sergilediğini belirtmesidir.

Ofis otomasyonunun pratik uygulamalarında, ilgili ajanlar kendilerini optimize etme yeteneğine sahiptir, sadece dört iterasyon ile en iyi performansa ulaşabilirken, diğer modeller on kez çalışsa bile aynı kalitede sonuçlar elde edemez.

Rakuten vurguladı ki, bu fark Opus 4.5'in kurumsal uygulamalarda daha yüksek verimlilik göstermesini sağlıyor.

Bu makalede Claude Opus 4.5 tanıtıldı! Doğruluk oranı GPT-5.1 ve Gemini 3'ü büyük bir farkla geride bıraktı, Rakuten: Kendini evrimleştirme gücü en erken Zincir Haberleri ABMedia'da göründü.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.