„Google“ neseniai paskelbė apie daugybę „Gemini AI“ modelio atnaujinimų, įskaitant kelis atnaujinimus ir naujus modelius. Tarp jų daug dėmesio sulaukė Gemini Live, multimodalinis AI modelis, turintis vaizdo ir balso galimybes.
Vasario mėn. Bardas buvo pervadintas į Gemini, AI modelis buvo naudojamas kaip „Google Assistant“ pakaitalas „Android“ įrenginiuose. Tačiau šiuo metu ji yra gana ribota. Naudodama „Gemini Live“, „Google“ siekia tai pakeisti pasiūlydama galingesnį ir universalesnį AI modelį.
Kas yra Gemini Live?
Siekdama suteikti vartotojams patobulintą dirbtinio intelekto patirtį ir pasinaudoti OpenAI GPT-4o patobulintu ChatGPT, „Google“ neseniai savo I/O kūrėjų konferencijoje paskelbė „Gemini Live“. „Gemini Live“ leis vartotojams palaikyti natūralius ir asmeninius pokalbius realiuoju laiku naudojant balsą, o vėliau ir vaizdo įrašą.
Naujasis dirbtinio intelekto modelis yra „Google“ projekto „Astra“ dalis. Tai paieškos milžino bandymas sukurti universalų AI asistentą, galintį teikti pagalbą naudojant įvairių tipų įvestis iš kasdienio gyvenimo. Pavyzdžiui, „Gemini Live“ gali naudoti tekstą, vaizdus iš jūsų išmaniojo telefono kameros ir jūsų balsą, kad atsakytų į klausimus.
„Google“ teigimu, naujasis natūralios kalbos modelis ne tik padės vartotojams spręsti problemas ir atlikti įvairius veiksmus, bet ir sąveikaujant jaustis visiškai natūraliai. Naudotojai galės paleisti „Gemini Live“ savo telefone paliesdami balso piktogramą, kuri parodys AI visame ekrane su garso bangos formos efektu.
Tada galite kalbėtis su AI taip pat, kaip su tikru asmeniniu asistentu. Puikus pavyzdys, kaip atnaujintas AI modelis gali jums padėti, yra tada, kai paprašote jo padėti pasiruošti pokalbiui. Gemini Live pasiūlys įgūdžius, kuriuos galite pabrėžti, pateiks viešo kalbėjimo patarimų ir kt.
funkcijos
„Gemini Live“ yra su keliomis funkcijomis, dėl kurių jis yra daug geresnis AI asistentas nei „Google Assistant“, „Apple Siri“ ar „Amazon“ „Alexa“.
Dvipusiai balso pokalbiai
„Gemini Live“ leidžia su juo kalbėtis ir pateikia žmogiškus žodinius atsakymus, todėl vyksta patrauklūs ir intuityvūs pokalbiai. Pavyzdžiui, galite paklausti apie orą ir jis jums pateiks tikslią ir glaustą informaciją.
Išmaniojo asistento galimybės
AI modelis gali būti išmanusis asistentas ir atlikti tokias užduotis kaip informacijos iš el. laiškų apibendrinimas ir kalendoriaus atnaujinimas. Pavyzdžiui, galite nufotografuoti koncerto skrajutę, o Dvyniai įtrauks įvykį į jūsų kalendorių.
Vizualinės galimybės
Naudodami fotoaparatą savo išmaniajame telefone, Gemini Live gali fiksuoti vaizdo įrašus realiuoju laiku. Tai leidžia identifikuoti objektus ir atsakyti į klausimus apie juos. Pavyzdžiui, jei nukreipsite savo išmaniojo telefono kamerą į garsiakalbį ir paprašysite Gemini jį identifikuoti, jis jums pasakys, kas tai yra, ir netgi nustatys jo markę bei modelį.
Kaip veikia Gemini Live?
Projektas Astra gali derinti kalbos ir vaizdo įvestis, todėl jas lengva suprasti dirbtinio intelekto modeliui. Tada ji gali reaguoti į informaciją ir suteikti reikiamą pagalbą. Kaip ir „OpenAI“ GPT-4o veikiantis „ChatGPT“, „Gemini Live“ yra daugiarūšis dirbtinis intelektas ir nesiremia vien tekstu kaip įvestimi.
Nors iš pradžių „Gemini Live“ iš pradžių naudos balso įvestį duomenims rinkti ir analizuoti, ateinančiais mėnesiais jis bus atnaujintas, kad būtų galima apdoroti ir analizuoti vaizdo įrašus, suskirstant juos po kadro, kad būtų geriau suprantama ir sąveikaujama.
AI gali prisitaikyti prie skirtingų vartotojų kalbėjimo greičio, o jūs netgi galite jį nutraukti, kad paprašytumėte paaiškinimo ar pateiktumėte daugiau informacijos. Jo gebėjimas imituoti žmonių dialogą gali užtikrinti patrauklesnę sąveiką. Taigi, kaip ir su žmogaus padėjėju, galite su juo kalbėtis pirmyn ir atgal. Be to, galėsite pasirinkti iš dešimties skirtingų AI balsų.
GPT-4o vs. Dvyniai gyvai
Nors ir GPT-4o, ir Gemini Live yra daugiarūšiai dirbtinio intelekto modeliai, šiuo metu sunku suprasti, kuris iš jų veikia geriau realiame gyvenime, ypač todėl, kad nė vienas iš jų šiuo metu nėra viešai prieinamas.
Tačiau, skirtingai nei „ChatGPT“, „Gemini Live“ remiasi kitais AI modeliais, tokiais kaip „Google Veo“ ir „Imagen 3“, kad pateiktų išvestį vaizdo įrašų ir vaizdų pavidalu. Nepaisant to, „OpenAI“ ir „Google“ demonstruojamose demonstracinėse versijose „ChatGPT“ atrodė natūralesnė, o naujasis GPT-4o modelis netgi galėjo aptikti ir imituoti žmogaus emocijas per balso tonus.
Be to, jis gali prisitaikyti prie jūsų norimo atsakymo, o to „Gemini Live“ negali padaryti, bent jau esant dabartinei būsenai.
Gemini Live prieinamumas
„Gemini Live“ bus prieinama „Gemini Advanced“ abonentams, o tai yra mokama AI pokalbių roboto versija. Ji bus išleista per ateinančius mėnesius ir tikimasi, kad bus plačiai prieinama iki metų pabaigos.
Tokios programos kaip „Google Messages“ galės išnaudoti visas „Gemini Live“ galimybes, leisdamos vartotojams bendrauti su dirbtiniu intelektu tiesiogiai susirašinėjimo programoje.
„Gemini Live“ gali būti kitas svarbus „Google“ AI pokalbių roboto atnaujinimas ir būtent tai, ko jam reikia, kad galėtų įveikti tokius konkurentus kaip „OpenAI“ „ChatGPT“. Dėl daugiarūšio funkcionalumo ir galingų kalbėjimo galimybių atnaujintas modelis gali padėti „Google“ sėkmingai pristatyti universalų ir patikimą skaitmeninį asistentą.
Šiuo metu „Google“ tik paskelbė, kad naują AI modelį pateiks mokamiems abonentams. Nors tai palieka nemokamus naudotojus, kurie sudaro didžiulę „Google“ vartotojų bazės dalį, tikimės, kad „Google“ pakeis savo poziciją ir nuspręs išplėsti „Gemini Live“ prieinamumą.
Parašykite komentarą