„Google“ pristato „Gemini Live“ – įmonės atsakymą į „ChatGPT“ išplėstinį balso režimą

„Google“ renginys „Made by Google“ oficialiai baigėsi, kai bendrovė pristatė naujausią savo flagmanų „Pixel“ serijos išmaniųjų telefonų seriją. Gandų malūnas pastarąsias kelias savaites sunkiai dirbo dėl to, kad vienas ir daugelis gandų pagaliau virto realybe. Be to, kaip ir tikėtasi, renginyje taip pat buvo daugiau nei keli – iš tikrųjų gana daug – AI paminėjimai.

Be kitų dalykų, AI, vienas svarbus pranešimas buvo „Gemini Live“ paleidimas. „Google“ paskelbė „Gemini Live“ savo I / O konferencijoje šių metų pradžioje. Pagaliau ji bus prieinama „Gemini Advanced“ prenumeratoriams „Android“ naudojant anglų kalbą, o netrukus bus išleista daugiau kalbų ir „iOS“ (per „Google“ programą).

Naudodami Gemini Live, Gemini dabar gali palaikyti natūralesnius, abipusius pokalbius. Taip pat galite jį nutraukti atsakymo viduryje, kaip ir bet kuriame natūraliame pokalbyje. Galite eiti į „Gemini“ programą „Android“, kad galėtumėte kalbėtis su pokalbių robotu.

Tai panašu į išplėstinio balso režimo funkcijas ChatGPT programoje, kuri dabar ribota alfa versija pasiekiama ChatGPT Plus naudotojams. „Google“ pirmą kartą pralenkė „OpenAI“ išleidimo laiko juostoje, pradėdama platesnį diegimą.

„Gemini Live“ taip pat galima naudotis laisvų rankų įranga, todėl galite kalbėtis su „Gemini“ fone arba net tada, kai telefonas yra užrakintas. Taip pat galite palikti pokalbius viduryje ir prie jų grįžti vėliau.

„Google“ pristato „Gemini Live“ 10 naujų balsų, kad jūsų pokalbiai su AI atrodytų dar autentiškesni; galite pasirinkti jums patinkantį balsą ir toną.

Pažymėtina, kad „Gemini Live“ negali imituoti jokio kito balso, išskyrus 10 programoje esančių balsų, kad būtų išvengta autorių teisių problemų. „ChatGPT-4o“ laikosi tos pačios politikos. Yra viena sritis, kurioje „Gemini Live“ nėra tas pats, kas „ChatGPT-4o“ balso režimas. Pirmieji negali suprasti jūsų emocijų iš jūsų tono, ką galėjo padaryti OpenAI demonstravo savo pokalbių robotą.

Be to, yra ir viena „Gemini Live“ galimybė, kurią „Google“ demonstravo I/O konferencijoje, kuri nebus pasiekiama paleidimo metu. Taip, mes kalbame apie multimodalinius įėjimus. Jei nežinote, kas tai buvo, nesijaudinkite. Apibendrinimas: Naudodama daugiarūšio įvesties įvestį, „Gemini Live“ gali realiuoju laiku priimti įvestis iš jūsų telefono kameros (ir nuotraukas, ir vaizdo įrašus) ir atsakyti į visus klausimus arba padėti atpažinti objektus, į kuriuos nukreipiate. Pavyzdžiui, galite nukreipti jį į tam tikrą DJ įrangą ir paprašyti jos identifikuoti dalies pavadinimą arba galite nukreipti ją ekrane ir paklausti, ką veikia tam tikra kodo dalis.

Tačiau multimodalinės galimybės kol kas atidėtos, o „Google“ tik pasakė, kad jos bus pristatytos vėliau šiais metais, be jokios informacijos. Įdomu tai, kad „ChatGPT-4o“ išplėstinis balso režimas taip pat turėtų turėti panašias galimybes, tačiau jie taip pat nebuvo paleisti su ribotu alfa išleidimu.

Pažymėtina, kad „Gemini Live“ yra žingsnis į „Google“, kad projektas Astra būtų įgyvendintas.

Kalbėtis su pokalbių robotu kartais yra daug patogiau, nei ką nors įvesti, ypač kai norite ką nors išsiaiškinti. O su Gemini Live pokalbis gali būti daug sklandesnis. Arba, jei tiesioginės demonstracinės versijos iš įvykio „Made by Google“ turi būti bet koks ženklas, pakankamai sklandžiai. (Matyt, pokalbių robotas haliucinavo tiesioginės demonstracinės versijos metu ir yra tam tikra trintis, kai išbandoma funkcija „pertraukti Dvynius viduryje“). Pažiūrėkime, kaip sekasi realiame pasaulyje, ar ne? Pasiruoškite išbandyti Gemini Live savo Pixel, Samsung ar kituose Android įrenginiuose per ateinančias savaites, pradedant nuo šiandien.