Predstavljamo Claudea Opusa 4.5

Najnoviji AI model, Claude Opus 4.5, dostupan je danas. Inteligentan je, učinkovit i najbolji model na svijetu za kodiranje, agente i korištenje računala. Također je značajno bolji u svakodnevnim zadacima poput dubinskog istraživanja i rada sa slajdovima i proračunskim tablicama. Opus 4.5 korak je naprijed u onome što AI sustavi mogu učiniti i pregled većih promjena u načinu obavljanja posla.

Claude Opus 4.5 je najsuvremeniji u testovima softverskog inženjerstva u stvarnom svijetu:

Opus 4.5 dostupan je danas na našim aplikacijama, našem API-ju i na sve tri glavne cloud platforme. Ako ste programer, jednostavno ga koristite claude-opus-4-5-20251101putem Claude API-ja . Cijena je sada 5/25 USD po milijun tokena, što mogućnosti Opusove razine čini dostupnima još većem broju korisnika, timova i poduzeća.

Uz Opus, objavljujemo ažuriranja za Claude Developer Platform , Claude Code i naše potrošačke aplikacije . Postoje novi alati za agente koji dulje koriste Claude i novi načini korištenja Claudea u Excelu, Chromeu i na računalu. U Claude aplikacijama, dugi razgovori više ne nailaze na prekid. Za detalje pogledajte naš odjeljak usmjeren na proizvode u nastavku.

Prvi dojmovi

Dok su naši kolege iz Anthropica testirali model prije objavljivanja, čuli smo izrazito dosljedne povratne informacije. Testeri su primijetili da Claude Opus 4.5 rješava dvosmislenost i razloge o kompromisima bez ikakvog dodatnog napora. Rekli su nam da, kada se ukaže na složenu grešku na više sustava, Opus 4.5 pronalazi rješenje. Rekli su da su zadaci koji su prije samo nekoliko tjedana bili gotovo nemogući za Sonnet 4.5 sada dostupni. Sveukupno, naši testeri su nam rekli da Opus 4.5 jednostavno "shvaća".

Mnogi naši korisnici s ranim pristupom imali su slična iskustva. Evo nekoliko primjera što su nam rekli:

Ocjenjivanje Claude Opusa 4.5

Potencijalnim kandidatima za inženjerstvo performansi dajemo notorno težak ispit za ponijeti kući. Također testiramo nove modele na ovom ispitu kao internu referentnu vrijednost. Unutar našeg propisanog vremenskog ograničenja od 2 sata, Claude Opus 4.5 postigao je bolji rezultat od bilo kojeg ljudskog kandidata ikada .

Test za ponijeti s sobom osmišljen je za procjenu tehničkih sposobnosti i prosudbe pod vremenskim pritiskom. Ne testira druge ključne vještine koje kandidati mogu posjedovati, poput suradnje, komunikacije ili instinkta koji se razvijaju godinama. Ali ovaj rezultat - gdje model umjetne inteligencije nadmašuje jake kandidate u važnim tehničkim vještinama - postavlja pitanja o tome kako će umjetna inteligencija promijeniti inženjerstvo kao profesiju. Naše istraživanje društvenih utjecaja i ekonomske budućnosti usmjereno je na razumijevanje ovakvih promjena u mnogim područjima. Planiramo uskoro podijeliti više rezultata.

Softverski inženjering nije jedino područje u kojem se Claude Opus 4.5 poboljšao. Mogućnosti su veće u svim područjima - Opus 4.5 ima bolji vid, rasuđivanje i matematičke vještine od svojih prethodnika, te je vrhunski u mnogim područjima: 2

Mogućnosti modela nadmašuju neke od mjerila koja koristimo u našim testovima. Uobičajeno mjerilo za agentske sposobnosti je τ2-bench , koje mjeri performanse agenata u stvarnim, višestrukim zadacima. U jednom scenariju, modeli moraju djelovati kao agenti zrakoplovne službe koji pomažu putniku u nevolji. Mjerilo očekuje da će modeli odbiti izmjenu osnovne rezervacije ekonomske klase jer zrakoplovna kompanija ne dopušta promjene te klase karata. Umjesto toga, Opus 4.5 pronašao je pronicljiv (i legitiman) način rješavanja problema: prvo nadogradite kabinu, a zatim izmijenite letove.

<code>
Let me think about what options I have within my policy:
1. Modify flights - Basic economy cannot be modified. This is clear in the policy.
2. Change cabin - Wait, let me check this option! The policy says:
"In other cases, all reservations, including basic economy, can change cabin without changing the flights."

But he wants to change the flights, not just the cabin. However, what if we:
- Change the cabin first (which IS allowed for basic economy), then
- Change the flights (which is allowed for non-basic economy)

So the strategy could be:
1. Upgrade his cabin from basic economy to economy (or business)
2. Then modify the flights to be 2 days later

This would cost more money, but it’s a legitimate path within the policy!
</code>

Mjerilo je tehnički ovo ocijenilo kao neuspjeh jer je Claudeov način pomaganja kupcu bio neočekivan. Ali ova vrsta kreativnog rješavanja problema upravo je ono što smo čuli od naših testera i kupaca - to je ono što Claude Opus 4.5 čini značajnim korakom naprijed.

U drugim kontekstima, pronalaženje pametnih puteva zaobilaženja namjeravanih ograničenja moglo bi se smatrati nagradnim hakiranjem - gdje modeli "igre" pravila ili ciljeve na nenamjerne načine. Sprječavanje takvog neusklađenosti jedan je od ciljeva našeg testiranja sigurnosti, o čemu će biti riječi u sljedećem odjeljku.

Korak naprijed u pogledu sigurnosti

Kao što navodimo u našoj sistemskoj kartici, Claude Opus 4.5 je najrobustnije usklađen model koji smo do sada objavili i, sumnjamo, najbolje usklađen granični model od strane bilo kojeg programera. Nastavlja naš trend prema sigurnijim i zaštićenijim modelima:

Naši klijenti često koriste Claude za kritične zadatke. Žele biti sigurni da, suočen sa zlonamjernim napadima hakera i kibernetičkih kriminalaca, Claude ima obuku i „uličnu pamet“ kako bi izbjegao probleme. S Opusom 4.5 postigli smo značajan napredak u otpornosti na napade promptno ubrizgavanjem, koji prokrijumčare obmanjujuće upute kako bi prevarili model i naveli ga na štetno ponašanje. Opus 4.5 je teže prevariti promptno ubrizgavanjem nego bilo koji drugi granični model u industriji:

Komentari (2)

Budite ljubazni i poštujte druge korisnike

Marko Petrovićprije 1h

Odličan članak! Baš sam tražio ovakve informacije. Hvala redakciji na kvalitetnom sadržaju.

Ana Kovačevićprije 37 min

Slažem se, jako korisno!

Jasmin Hadžićprije 2h

Zanimljiva perspektiva. Volio bih vidjeti više ovakvih članaka u budućnosti.