Gegužės mėn. OpenAI išplėstinio balso režimo demonstravimas sužavėjo auditoriją ir sukėlė jaudulio bangą. Tačiau pradinis jaudulys greitai virto nusivylimu, kai paaiškėjo, kad ši funkcija bus pasiekiama tik vėliau šiais metais.
Pasukite kelis mėnesius ir „OpenAI“ pristatė išplėstinį balso režimą visiems „ChatGPT“ naudotojams, įskaitant nemokamus ir mokamus abonentus. Kadangi technologija dabar gali būti naudojama plačiau, atėjo laikas įvertinti jos veikimą ir išsiaiškinti, ar ji atitinka didelius lūkesčius, kuriuos kelia pirminė vitrina.
Galimybių ir apribojimų įvertinimas
Vartotojai, kurie tikėjosi, kad išplėstinis balso režimas atspindės įspūdingas funkcijas, parodytas ankstesnėje demonstracijoje, apčiuopiamas nusivylimo jausmas. Pastebimai nėra pagrindinių funkcijų, tokių kaip daugiarūšiškumas, interneto ryšys ir failų įkėlimo galimybės. Nepaisant „ChatGPT Search“ išleidimo, balso režimui vis dar trūksta realiojo laiko interneto prieigos ir atnaujinimų.
Be to, nesugebėjimas tęsti balso pokalbių iš ankstesnių teksto sąveikų riboja jo praktiškumą. Šis trūkumas akivaizdžiai prieštarauja daug žadančioms funkcijoms, pabrėžtoms demonstracinėje versijoje, todėl vartotojas nori turėti funkcijų, kurios lieka neįgyvendintos.
Pokalbio srauto patobulinimai
Nepaisant apribojimų, išplėstinis balso režimas, palyginti su jo pirmtaku, gerokai patobulintas. Pokalbiai atrodo organiškesni, o vartotojai gali juos nutraukti nelaukdami, kol AI „pagalvos“, sukurdami patrauklesnę patirtį.
Nors kai kurie spėlioja apie naujojo balso režimo foninius procesus, mano patirtis rodo, kad tarp kalbėjimo ir atsakymo gavimo yra minimalus atsilikimas. Šis betarpiškumas skatina dialogo jausmą, panašų į žmonių pokalbį.
Galimybė perjungti kalbas, įskaitant hindi, pandžabų, anglų ir prancūzų kalbas, taip pat yra pagirtina. Tačiau kartais sunku atskirti hindi ir pandžabų kalbas, o balso režimas gali būti naudingas tiesioginės transkripcijos funkcija mokantis kalbų.
Įvairios ir patrauklios balso parinktys
„ChatGPT“ balsų pasirinkimas pagerina vartotojo patirtį. Šiuo metu ji siūlo šiuos balsus:
- Pavėsinė (M) – lengva ir universali
- Vale (F) – ryškus ir smalsus
- Breeze (M) – animacinis ir nuoširdus
- Sol (F) – Sumanus ir atsipalaidavęs
- Klevas (F) – linksmas ir nuoširdus
- Cove (M) – sukurtas ir tiesioginis
- Ember (M) – pasitikintis ir optimistiškas
- Kadagys (F) – atviras ir nuotaikingas
- Eglė (M) – rami ir patvirtinanti
Gyvas šių balsų pobūdis daro bendravimą daug malonesnį, palyginti su konkurentų, tokių kaip „Gemini Live“ ir „Copilot“, kuriems trūksta panašaus pokalbio sklandumo.
Iššūkiai su apribojimais
Nors balso režimas gali efektyviai perteikti emocinius niuansus pasakojimui, jis neveikia dėl pernelyg griežtų apribojimų. Ankstesnėje demonstracinėje versijoje naudotojai turėjo daugiau galimybių, įskaitant galimybę dainuoti, kuri buvo pašalinta, kad būtų išvengta galimų autorių teisių pažeidimų.
Deja, šie apribojimai pablogina bendrą patirtį. Vartotojai gali susidurti su pagrįstų užklausų atmetimu, pvz., sugeneruoti dialogus vaidybos praktikai, sukelti nusivylimą. Išplėstinis balso režimas kartais gali patenkinti kai kuriuos kūrybinius užklausas, šiek tiek ragindamas, bet dažnai manoma, kad nenuoseklumas trukdo jį naudoti.
Atminties galimybės ir konteksto suvokimas
Išplėstinio balso režimo ypatybė yra galimybė prisiminti informaciją. Tačiau tai neleidžia tęsti balso pokalbių esamuose pokalbiuose, kuriuose yra tekstas arba vaizdai, o tai yra reikšmingas apribojimas.
Palyginimui, „Gemini Live“ palaiko nuolatinį dialogą, neatsižvelgiant į ankstesnius pokalbių kontekstus, išryškindama sritį, kurioje „OpenAI“ gali prireikti tobulėti norint efektyviai konkuruoti.
Greito reagavimo laikas
Nors greiti atsakymai pagerina pokalbio dinamiką, kartais jie gali sutrikdyti dialogo eigą. AI linkęs klaidingai interpretuoti pauzes kaip kvietimą atsakyti, o tai gali sukelti trikdžius, kurie gali sugadinti vartotojo mintis.
Funkcija, leidžianti vartotojams signalizuoti apie ilgesnes pauzes, panaši į mygtuką „Sulaikyti“, labai padidintų šių sąveikų natūralumą.
Retkarčiais pasitaikantys nedideli nesklandumai
Dauguma sąveikų su išplėstiniu balso režimu yra sklandžiai, tačiau vartotojai kartais gali susidurti su nedideliais nesklandumais, pvz., trumpais statiniais arba netikėtais balso pasikeitimais. Nors šios problemos paprastai yra nedidelės, kartais jos gali sutrikdyti vartotojo patirtį.
Išlaidų ir prieinamumo svarstymai
Išplėstinis balso režimas pasiekiamas naudojant nemokamą „ChatGPT“ planą maždaug 15 minučių per mėnesį, tačiau norint pasiekti visišką prieigą, reikia užsiprenumeruoti. Tai skiriasi nuo konkurentų, tokių kaip „Copilot“ ir „Gemini Live“, kurie vartotojams siūlo savo balso funkcijas nemokamai.
Prenumeratos mokestis, be to, kad kituose modeliuose nėra tokių funkcijų kaip interneto prieiga, kelia klausimų dėl paslaugos vertės, ypač vartotojams, besidomintiems vien balso galimybėmis.
Galutinis įvertinimas
Nors „Advanced Voice Mode“ neabejotinai gali pasigirti įspūdinga technologine pažanga, šiuo metu jis neįvykdo visko, kas buvo pažadėta demonstracijoje. Jo praktinis pritaikymas yra ribotas, o be reikšmingų patobulinimų jis veikiau kaip naujovė nei būtina priemonė.
Tiems, kurie jau užsiprenumeravo „ChatGPT“ ir naudoja tokias funkcijas kaip „Canvas“, „Search“ ar samprotavimo modelis, išplėstinis balso režimas gali būti puikus priedas. Tačiau tai gali nepateisinti prenumeratos.
Parašykite komentarą