Neseniai Anthropic pristatė savo pirmaujančio modelio „Claude 3.5 Sonnet“ patobulinimus, kurie galėjo būti nepastebėti dėl kitų svarbių atnaujinimų, pvz., Kompiuterio naudojimas ir analizės įrankis. Tačiau atnaujintame „Claude 3.5 Sonnet“ yra keletas dėmesio vertų patobulinimų.
Nors naudojimasis kompiuteriu yra didelė pažanga, jo naudojimas tarp vartotojų vis dar yra ribotas. Taip yra visų pirma todėl, kad jis yra ankstyvoje kūrimo stadijoje ir nėra visiškai patikimas. Be to, jo prieinamumas apsiriboja API naudojimu, todėl jis yra mažiau prieinamas platesnei auditorijai.
Priešingai, naująjį „Claude 3.5 Sonnet“ galima naudoti nedelsiant ir jis siūlo žymiai didesnį našumą. Taigi, kas tiksliai išskiria šį atnaujintą 3.5 Sonnetą?
Anthropic ataskaitoje pabrėžiama, kad naujausias Claude 3.5 Sonnetas, palyginti su ankstesniais modeliais ir daugeliu konkurentų, patobulino pramonės etalonus. Agentinio kodavimo ir įrankių naudojimo pažanga yra ypač įspūdinga. Pavyzdžiui, jis padidino savo agentinio kodavimo tikslumą nuo 33,4 % iki 49 % SWE bandymo stende, o agentinio įrankio naudojimo TAU bandymo stende tikslumas padidėjo nuo 51,0 % iki 69,2 % mažmeninėje prekyboje ir nuo 22,8 % iki 46,0% oro linijų sektoriuje. Pažymėtina, kad šie patobulinimai pasiekiami už tokią pačią kainą ir greitį, kaip ir jo pirmtakas.
Vertinant Claude 3.5 Sonnet (naujas), kurį kai kurie vartotojai vadina 3.6 Sonnetu dėl pavadinimų painiavos, pastebima pažanga, ypač kodavimo, samprotavimo ir kūrybinio rašymo galimybės.
Anksčiau pripažintas vienu geriausių kodavimo kūrėjų, Claude’as padarė didelę pažangą su šiuo atnaujinimu, dabar galintis vienu atsakymu išspręsti labai sudėtingas problemas. Ji taip pat pagerino savo galimybes ištaisyti ankstesnes klaidas.
Vartotojai pastebės, kad naujasis Claude 3.5 Sonnetas atsako daug greičiau ir pašalina nusivylimą, patirtą naudojant ankstesnę versiją, kai našumas pastebimai sumažėjo.
Claude’as taip pat patobulino savo samprotavimo įgūdžius, palygindamas su OpenAI modeliu o1. Nors jis gali nesutapti su o1 sudėtingose samprotavimo užduotyse, jis išlieka kompetentingas atliekant paprastesnius samprotavimo iššūkius.
Norėdami patikrinti Klodo samprotavimus, pabandykite jo paklausti, How many words are in your response to this prompt?
. Pažymėtina, kad transformatorių architektūros modeliai dažnai susiduria su tokiais raginimais, nes jiems reikia numatyti tolesnius žodžius. Tačiau šis raginimas skatina modelį iš anksto parengti strategiją.
OpenAI o1 modelis puikiai valdo šį raginimą efektyviai. Nors naujasis Claude 3.5 Sonnetas ne visai pasiekia o1 įgūdžių, jis gerokai pranoksta senesnę Claude versiją. Anksčiau Claude’as galėjo apgalvoti, bet dabar jis bando tiksliai suskaičiuoti žodžius, nors ir neatsižvelgdamas į visus juos vienodai. Galų gale, ar Claude’o atsakymas bus laikomas teisingu, priklausys nuo asmeninio aiškinimo.
Let me count the words in my response to your question:
This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8).
There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.
Remiantis pateiktu pavyzdžiu, kai kurie vartotojai gali ginčytis, kad Claude’as tiksliai suskaičiavo žodžius, kuriais jis įvertino savo atsakymą. Jame paaiškinama, kad jokie vėlesni žodžiai nėra atsakymo dalis, nes jie tiesiog paaiškina jo samprotavimo procesą. Nors kai kurie gali nepastebėti įžanginės frazės „Leiskite man suskaičiuoti žodžius atsakydamas į jūsų klausimą“, kiti gali ją vertinti kitaip. Galiausiai tai tampa asmeninio sprendimo reikalu.
Nepaisant to, šis atvejis iliustruoja, kad naujasis Claude 3.5 Sonnetas iš tiesų pagerino savo samprotavimo galimybes. Dabar ji gali išreikšti savo mąstymo procesus arba pasakyti: „atrajok, lauk“, kai reikia papildomo laiko svarstymui – šiek tiek panašiai kaip o1. Kartais tai netgi gali pasitaisyti, sakydama: „Leiskite man tai permąstyti“.
Šis į ateitį žvelgiantis gebėjimas taip pat sustiprino Claude’o kūrybinio rašymo įgūdžius. Turėdamas galimybę mąstyti į priekį, jis gali sukurti išplėstinius pasakojimus, kuriuose yra nuoseklių lankų, numatytų elementų ir patrauklių personažų.
Be to, buvo padaryta didelė pažanga atliekant jos analitinius rezultatus. Claude dabar glaudžiai konkuruoja su plačiausiu Anthropic modeliu Claude 3 Opus, taip pat su OpenAI o1 mini analize.
Apibendrinant galima pasakyti, kad naujausi atnaujinimai padarė didelę pažangą įvairiuose aspektuose. Naujos kodavimo funkcijos sulaukė daug dėmesio. Tačiau dabartinis „Claude“ apribojimas yra naudojimo ribos, kurios yra daug labiau ribojančios net „Pro“ naudotojams, palyginti su „ChatGPT“ naudotojais.
Parašykite komentarą