Neseniai išbandžiau naująjį Claude 3.5 Sonnet modelį, kuris kol kas yra galingiausias AI modelis iš Anthropic ir kuris, bendrovės teigimu, gali pranokti konkurentus, tokius kaip OpenAI ChatGPT. Tai drąsus teiginys, kurį Anthropic remia keliais gana įspūdingais etalonais.
Naujasis modelis taip pat turi regėjimo galimybes, leidžiančias jam pateikti vaizdus ir dokumentus bei iš jų išgauti informaciją. Ir jis gali geriau suprasti emocijas, pavyzdžiui, humorą, būdamas daug greitesnis. Dėl visų šių elementų „Claude 3.5“ yra pagrindinis konkurentas naujajam GPT-40 maitinamam „ChatGPT“, kuris taip pat yra daugiarūšis AI modelis.
Kaip ir „Sonnet“, „ChatGPT-40“ gali naudoti ne tik tekstinius, bet ir vizija pagrįstus įvestis, kad pateiktų atsakymus. Jis vienodai gerai sprendžia problemas ir turi panašias pokalbio galimybes. Kadangi abu nauji modeliai yra labai arti vienas kito pagal galimybes ir našumą, visiems kyla klausimas, kuris iš dviejų yra geresnis? Norėdamas į tai atsakyti, nusprendžiau detaliai palyginti abu modelius.
Informacijos ištraukimas iš dokumentų
Dirbtinio intelekto įrankiai dažnai naudojami informacijai iš dokumentų, pvz., PDF failų, išgauti ir ją apibendrinti; todėl nusprendžiau pirmiausia patikrinti, kuris iš dviejų modelių galėtų tai padaryti efektyviau. Tam parengiau PDF dokumentą apie stogo dangų aikštes, kurį parašiau prieš kurį laiką ir įkėliau jį į ChatGPT ir Claude.
Tada aš jiems paraginau: summarize this document and provide me with the most important points discussed in it.
štai ką aš atradau. Naujasis „Claude“ modelis buvo daug greitesnis nei „ChatGPT“ ir pradėjo generuoti atsakymą iškart po to, kai pateikiau užklausą. Ji taip pat atidžiau sekė raginimu, sunumeruotu sąrašu surašydama svarbius punktus. Jei jums trūksta laiko ir norite tik žvilgtelėti, kas yra dokumente, tai jums reikia.
Tačiau, nepaisant to, kad esu lėtesnis nei Claude’as, šiuo atveju man labiau patiko „ChatGPT“ atsakymas. Jame ne tik išvardyti svarbiausi dokumento punktai, bet ir suskirstyti į skirtingus skyrius, pvz., Apibrėžimas ir svarba, Skaičiavimas ir kt.
Jei reikia rasti konkrečios informacijos apie tam tikrą dokumente aptariamos temos aspektą, atrodo, kad ChatGPT veiksmų atlikimo būdas yra naudingesnis. Jums nereikia eiti per visus punktus ir galite tiesiog pažvelgti į reikalingą skyrių. Informacija pateikiama taip, kad ją būtų lengviau suprasti ir virškinti.
Regėjimo galimybių tikrinimas
Kadangi vienas iš pagrindinių Claude 3.5 ir ChatGPT-40 akcentų yra jų gebėjimas naudoti vaizdinę įvestį ir teikti tuo pagrįstą informaciją, nusprendžiau tai išbandyti toliau, paprašydamas jų perrašyti ranka rašytas instrukcijas. Paprašiau dirbtinio intelekto modelių parašyti trumpą eilėraštį, panašų į Ezopo „Skruzdėlė ir svirplė“.
Nors to nenurodžiau raštu, norėjau, kad kūrinys būtų įkvėptas eilėraščio, bet su skirtingais personažais. Claude’as pirmiausia paprašė manęs patvirtinti mano ranka rašytą prašymą, o tada tęsė jį. Rezultatas buvo gana geras, labai artimas originaliam eilėraščiui, bet jame buvo tie patys personažai. AI pokalbių robotas taip pat manęs paklausė, ar noriu kitokio požiūrio ar kokių nors modifikacijų eilėraštyje, kai jis baigė rašyti eilėraštį.
„ChatGPT“ nereikalavo, kad patvirtinčiau savo užklausą, bet nedelsdamas pradėjo ją vykdyti. Parašytas eilėraštis taip pat buvo labai įspūdingas, nes skruzdėlę ir svirplį iš originalaus kūrinio pakeitė bitė ir drugelis, ko Klodas nepadarė. Taip pat man pasirodė, kad „ChatGPT“ versija yra poetiškesnė.
Taigi transkripcijos rezultatai šiek tiek skiriasi, tačiau abu gali labai gerai iššifruoti ir suprasti ranka rašytą ir spausdintą tekstą, net jei vaizdai nėra labai aiškūs. Šios galingos regėjimo galimybės taip pat reiškia, kad galite naudoti šiuos įrankius informacijai iš grafikų ir diagramų rinkti, todėl jie tinka matematinėms užduotims.
Vaizdų aprašymas: kadangi abu modeliai taip pat gali išgauti informaciją iš vaizdų, turėjau tai išbandyti ir aš. Pateikiau Claude’ui ir ChatGPT atogrąžų salos vaizdą ir paprašiau jį apibūdinti. Kaip matote, Claude pateikia ryškų vaizdo aprašymą, labai aiškiai aprašydamas kiekvieną elementą priekiniame plane ir fone, net ir tuos, kurių aš nepastebėjau.
Claude’o pasirinktos frazės ir žodžiai įvaizdžiui apibūdinti taip pat buvo paveikesni, o tai padarė teisingą vaizdą. Jis puikiai apibūdina spalvas, apšvietimą ir perteikia bendrą vaizdo sukuriamą ramybės ir ramybės pojūtį.
Rezultatai buvo sudėtingesni ChatGPT atveju, kuris gali apibūdinti vaizdus, nors ir ne taip gerai, kaip Claude’o. OpenAI modelis linkęs klysti, pridedant elementų, kurių nėra, o tai rodo, kad jis vis tiek gali haliucinuoti. Be to, iš pradžių jis vis bandė apibūdinti vaizdą pagal jo pavadinimą, o ne pagal pavaizduotą vaizdą, ir galiausiai po kelių bandymų jis buvo teisingas.
Net tada aprašymas, kurį gavau iš jo, negalėjo atlaikyti žvakės Claude’o atsakymo. Tai labai nustebino, nes GPT-40 regėjimo galimybės buvo vienas didžiausių akcentų, kuriuos OpenAI pademonstravo paleidžiant.
Turinio generavimas ir redagavimas
Tada pabandžiau išsiaiškinti, kuriam modeliui sekasi geriau kurti turinį. Kad suprasčiau, kaip jie veikia, nusprendžiau sukurti turinį, kuriam reikia tikrų faktų ir duomenų, taip pat išgalvotą turinį, kuris būtų pagrįstas AI modelio kūrybiškumu.
Pirmiausia paprašiau Claude’o ir ChatGPT pateikti man išsamų straipsnį apie skirtingus Android apvalkalus, nes daugelis žmonių tai nori žinoti, tačiau tai labai subjektyvi tema, nes kiekvienas turi savo mėgstamiausią. Naudojau raginimą Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
Atsižvelgiant į tai, kiek laiko praleidžiame su savo išmaniaisiais telefonais, norėjau sužinoti, kiek tikslūs modeliai ir kiek informacijos jie gali suteikti apie kiekvieną odą.
Kaip įprasta, Claude’as atsakė greičiau. Jame buvo pateikta apžvalga, paaiškinanti, kas yra „Android“ apvalkalai, o tai yra puiku, bet tada tiesiog sužymėtame sąraše išvardijame skirtingus apvalkalus su jų siūlomomis funkcijomis. Atminkite, kad modelis pateikė šį rezultatą, nors savo raginime konkrečiai nurodžiau „išsamų straipsnį“.
Priešingai, „ChatGPT“ sukūrė įspūdingesnį straipsnio pavadinimą ir įtraukė trumpą įvadą. Po to jis paaiškino kiekvieną odą atskirame skyriuje, suskirstydamas kiekvieną į apžvalgą, pagrindines savybes, privalumus ir trūkumus.
Tai ne tik suteikia išsamesnės informacijos, bet ir leidžia tiksliai žinoti, kaip skiriasi skirtingos odos. Galiausiai straipsnis baigtas tinkama išvada. Nors „ChatGPT“ paminėtų skinų skaičius buvo mažesnis nei išvardytųjų Claude’o, čia kokybė svarbiau nei kiekybė.
Nors šiuo atveju „ChatGPT“ veikė geriau nei „Claude“, pastarasis taip pat gali sukurti gerą turinį, kaip radau ankstesniame bandyme. Tai gali priklausyti nuo temos arba nuo to, kaip suformuluosite raginimą. Todėl abiem modeliams pateikiau dar vieną raginimą, šį kartą naudodamas raginimą. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
Tai taip pat suteikė galimybę pamatyti, kaip modeliai supranta ir gali perteikti humorą.
Šį kartą rezultatai buvo labai artimi vienas kitam – abu modeliai kūrė tikrai linksmas istorijas. Abi istorijos turėjo bendrų elementų, tokių kaip ironija ir fizinė komedija. Grožinėje literatūroje asmeninis pasirinkimas yra galingas veiksnys, ir apskritai man pasirodė, kad Claude’o produkcija šiek tiek geresnė, ypač tai, kaip jis žaidžia žodžiais, kad sukurtų humorą.
Tačiau, kaip minėjau anksčiau, ChatGPT istoriją taip pat buvo smagu skaityti ir ji buvo šiek tiek ilgesnė nei Claude’o. Jo pabaiga taip pat buvo sveikesnė. Taigi, ir Claude’as, ir ChatGPT sugebėjo sukurti gerą išgalvotą turinį, įtraukdami humoristinius elementus pagal mano raginimą.
Turinio redagavimas: turinio kūrimas yra tik viena proceso dalis. Norėdami iš tikrųjų sužinoti, ką AI modelis gali padaryti, kai kalbama apie turinį, taip pat turite išbandyti jo turinio redagavimo galimybes, ką aš ir tęsiau. Šiuo tikslu pateikiau tekstą apie socialinę komerciją Claude’ui ir ChatGPT ir daviau jiems raginimą,Can you expand this article while also proofreading and improving it?
Tobulindamas straipsnį, Claude’as pradėjo nuo įvado, tada parašė apie socialinės komercijos raidą ir galiausiai sekė kitais skyriais, kiekvieną išplėsdamas taip, kaip atrodė tinkama. Modelis taip pat naudojo sunumeruotus sąrašus ir ženklelius, kai buvo manoma, kad būtina pagerinti skaitomumą.
„ChatGPT“ atsakymas buvo panašus į ankstesnius, kur jis suskirstė turinį į įvairias dalis su skirtingomis paantraštėmis. Ji nenaudojo jokių sąrašų, bet saugojo informaciją pastraipų forma. Kalbant apie pakeitimus ir patobulinimus, pastebėjau, kad Claude’as padarė drastiškesnius straipsnio pakeitimus nei ChatGPT, tačiau galutinis rezultatas taip pat buvo daug geresnis. Galiausiai radau, kad „Sonnet“ redagavimo galimybės yra galingesnės ir daug geriau pritaikytos mano darbo eigai.
Kodavimo galimybė
Joks AI modelių palyginimas nėra baigtas, neįtraukus jų kodavimo galimybių. Nors Claude buvo specialiai sukurtas tam, kad padėtų programuotojams greitai ir lengvai parašyti geresnį kodą, naujasis GPT-40 maitinamas ChatGPT taip pat nėra kažkas, į ką reikia žiūrėti į kodavimą.
Norėdamas išbandyti jų kodo generavimo galimybes, paprašiau Claude ir ChatGPT: Generate code for a simple game that can help beginners learn programming.
Nors abu rašė kodą Python, Claude’as kodą generavo greičiau, kaip ir tikėtasi. Dešinėje ekrano pusėje buvo rodomas visas kodas, o kairėje buvo paaiškinti tokie elementai kaip funkcijos ir kintamieji.
Labiausiai man patiko Claude’o atsakymas, kad jame taip pat buvo mygtukas, leidžiantis akimirksniu pereiti prie kodo, kad galėtumėte lengvai jį patikrinti. Be to, pokalbių robotas informavo mane apie reikalavimus, būtinus norint paleisti kodą, kartu su instrukcijomis. Kalbant apie patį kodą, jis buvo gana lengvai suprantamas ir taip pat puikiai veikė, kai jį išbandžiau.
Kalbant apie „ChatGPT“ atsakymą, jis taip pat sugebėjo sugeneruoti paprastą, bet funkcionalų kodą, kaip ir prašiau. Po kodu pokalbių robotas pateikė veiksmus, reikalingus žaidimui paleisti, taip pat sąvokas, kurias apima kodas, todėl pradedantiesiems buvo lengva suprasti. Apskritai, šiuo atveju abiejų modelių rezultatai buvo gana panašūs, nors Claude’as paaiškino daugiau elementų ir turėjo galimybę paprašyti išsamiai paaiškinti bet kurią kodo dalį.
Matematiniai gebėjimai
Galiausiai tiek Claude, tiek ChatGPT pateikiau matematikos klausimą, kad pamatyčiau, kaip jiems sekėsi ir kuris greitesnis. Klausimas buvo susijęs su algebrinėmis lygtimis, tačiau nebuvo ypač sudėtingas. Abu modeliai pradžioje paaiškino, ką daryti pirmame žingsnyje, nors jų požiūris buvo skirtingas. Claude’as išplėtė lygtį ir galiausiai man pasakė, kad norint išspręsti problemą reikia naudoti grafinį skaičiuotuvą arba kompiuterinę algebros sistemą.
Be to, jame buvo nurodytas galimų problemos sprendimų skaičius. Priešingai, „ChatGPT“ išsprendė visą problemą ir suteikė man visus galimus jos sprendimus. Tai rodo, kad kalbant apie matematinius sugebėjimus, „ChatGPT-4o“ lenkia „Sonnet“.
Galutinis verdiktas – Claude Sonnet 3.5 arba ChatGPT-4o: kas laimėjo?
Pasirinkti tarp Claude 3.5 ir ChatGPT-4o nėra lengva, bet galiausiai tik vienas gali būti laimėtojas, ir man tai turi būti naujasis Sonnet modelis. Tai ne tik žymiai greitesnis už ChatGPT, bet ir pateikia tikslesnius atsakymus. Man ypač patiko, kaip gerai galima apibūdinti vaizdus ir imtis su jais susijusių veiksmų.
Claude’as taip pat nekartojo haliucinacijų per mano laiką, o tai yra dar vienas jos pranašumas, o jo atsakymai apskritai buvo artimesni mano nurodymams. Nors vienu atveju, kai norėjau išsamaus turinio, jis neveikė taip, kaip tikėjausi, jį naudoti norint gauti norimą informaciją paprastai buvo lengviau ir reikėjo mažiau pastangų.
Išbandęs „Claude 3.5 Sonnet“ ir „ChatGPT-40“ sužinojau, kad abu yra išskirtinai geri AI modeliai, kurių veikimas yra labai arti vienas kito. Nors „Sonnet“ kai kurias užduotis atlieka geriau, „ChatGPT“ duoda geresnių rezultatų kitose. Turėtumėte suprasti, kad pasirinkimas, kuris iš jų yra geresnis, priklausys nuo jūsų individualaus naudojimo atvejo.
Be to, abiejų nemokamų modelių galimybės yra ribotos. Taigi, jei norite reguliariai naudoti bet kurį AI, rekomenduoju įsigyti mokamą prenumeratą, kad pasiektumėte geriausių rezultatų.
Parašykite komentarą