Šis naujas „Google DeepMind“ V2A įrankis gali būti paskutinė AI sukurtų filmų galvosūkio dalis

Šis naujas „Google DeepMind“ V2A įrankis gali būti paskutinė AI sukurtų filmų galvosūkio dalis

Kai buvo išleistas pirmasis dirbtinio intelekto sukurtas vaizdo įrašas, niekas negalėjo atspėti, kad vaizdo įrašą generuojantys AI įrankiai pasieks taip toli per tokį trumpą laikotarpį. Tačiau šiandien turime daugybę platformų, kurios leidžia vartotojams kurti aukštos kokybės, neįtikėtinai išsamius vaizdo įrašus, pvz., „Synthesia“ ir „Luma AI’s Dream Machine“. Nepaisant to, vis dar yra keletas iššūkių, dėl kurių šios priemonės negali būti naudojamos įprastai.

Ir galbūt didžiausias yra garso generavimo procesas. Nors dauguma vaizdo įrašų kūrimo platformų gali sukurti geros kokybės vaizdo įrašus, dažniausiai tai yra tylūs vaizdo įrašai be jokio garso. Net jei yra garsas, jis paprastai pridedamas atskirai ir neatitinka vartotojo lūkesčių.

Pavyzdžiui, jei apsilankysite „Luma AI“ svajonių mašinos puslapyje, galite pamatyti keletą labai įspūdingų vaizdo įrašų, tačiau juos lydintis garsas yra gana bendras ir prastos kokybės. Tačiau tai gali pasikeisti naudojant naują „Google“ vaizdo įrašo į garsą (V2A) technologiją.

Tai žada, kad geros kokybės vaizdo įrašų garso generavimas bus prieinamas masėms, o tai reiškia, kad pagaliau galėsite sukurti dirbtinio intelekto sukurtus filmus su tinkamais garso takeliais ir garsu, pranokstančiais visus šiuo metu gaminamus AI sukurtus vaizdo įrašus.

AI sukurtas garsas, skirtas

https://www.youtube.com/watch?v=VYjZlF6m3nQ

Kas yra „Google DeepMind“ vaizdo įrašo į garsą tyrimas?

Vaizdo įrašo į garsą (V2A) technologija, kurią sukūrė „Google DeepMind“, skirta dirbtinio intelekto sukurtų vaizdo įrašų garso takeliams kurti. Ši technologija leidžia generuoti vaizdo įrašus ir garsą vienu metu, derinant natūralios kalbos raginimus su vaizdo pikseliais, kad būtų generuojami garsai bet kokiems vaizdo įraše atliekamiems veiksmams.

Šią technologiją galima susieti su AI modeliais, naudojamais vaizdo įrašams generuoti, pvz., „Veo“, ir gali padėti sukurti tikroviškus dialogus ir garso efektus bei dramatiškus vaizdo įrašą atitinkančius balus. Dar svarbiau, kad naujoji V2A technologija neapsiriboja vaizdo įrašais, sukurtais naudojant AI, bet taip pat gali būti naudojama tradiciniu būdu sukurtų vaizdo įrašų garso takeliams generuoti. Taigi galite jį naudoti nebyliam filmui, archyvinei medžiagai ir kt.

V2A technologija leidžia vartotojams generuoti neribotą vaizdo įrašų garso takelių skaičių ir netgi naudoti teigiamus ir neigiamus raginimus, kad būtų galima vadovauti garso generavimo procesui ir lengvai gauti reikiamus garsus. Tai taip pat suteikia daugiau lankstumo, todėl galite eksperimentuoti su įvairiais išėjimais ir rasti tai, kas geriausia konkrečiam vaizdo įrašui.

Po vandeniu pulsuojančios medūzos garso pavyzdys. Šaltinis: Google

https://www.youtube.com/watch?v=9Q0-t8D9XFI

Kaip veikia V2A technologija?

„Google“ teigimu, bendrovė eksperimentavo su difuzija pagrįstomis ir autoregresyviomis technikomis ir nustatė, kad pirmoji yra tinkamiausia garso kūrimui. Tai sukuria labai tikroviškus garsus ir veikia koduojant vaizdo įrašą į suspaustą formatą.

Po to difuzijos modelis naudojamas atsitiktiniam triukšmui atskirti nuo vaizdo, remiantis natūralios kalbos raginimais ir vaizdo įrašu. Raginimai padeda sukurti tikrovišką garsą, kuris puikiai sinchronizuojamas su vaizdo įrašu. Po to iššifruojamas garsas, po kurio jis konvertuojamas į garso bangos formą ir sujungiamas su vaizdo įrašu.

„Google DeepMind“ suteikė daugiau informacijos, kad išmokytų dirbtinį intelektą, todėl vartotojai gali nukreipti garso generavimo procesą link reikiamų garsų ir leidžia platformai gaminti aukštesnės kokybės garsą. Tokia informacija apėmė sakytinio dialogo nuorašus ir detalius garso aprašymus su AI sukurtais komentarais.

Apmokyta naudotis tokia informacija, V2A technologija gali susieti skirtingas vaizdines scenas su konkrečiais garso įvykiais.

V2A technologijos veikimas. Šaltinis: Google

Kas yra horizonte?

„DeepMind“ V2A technologija veikia daug geriau nei kiti V2A sprendimai, nes jai ne visada reikia teksto raginimo ir ji gali suprasti vaizdo pikselius. Garso išvesties taip pat nereikia rankiniu būdu derinti su vaizdo įrašu. Tačiau vis dar yra tam tikrų technologijos apribojimų, kuriuos „Google“ siekia įveikti atlikdama tolesnius tyrimus.

Pavyzdžiui, sugeneruoto garso kokybė priklauso nuo vaizdo, naudojamo kaip įvestis, kokybės. Jei vaizdo įraše yra iškraipymų ar artefaktų, dirbtinio intelekto modelis nesugeba jų suprasti, nes jie nėra įtraukti į jo mokymą, todėl garso kokybė pablogėja.

Be to, vaizdo įrašuose, kuriuose yra žmogaus kalba, bendrovė stengiasi pagerinti lūpų sinchronizavimą. V2A technologija bando generuoti kalbą naudodama įvesties nuorašus ir suderinti ją su vaizdo įrašo veikėjų lūpų judesiais. Tačiau jei vaizdo įrašas nesiremia nuorašais, garso ir lūpų judesiai nesutampa.

Su geresnėmis garso generavimo galimybėmis dirbtinio intelekto modeliai galės generuoti vaizdo įrašus, kurie ne tik atrodo įspūdingai, bet ir skamba puikiai. „Google“ taip pat integruoja savo V2A technologiją su „SynthID“, kuri žymi vandens ženklus visam turiniui, sukurtam naudojant AI. Tai gali padėti išvengti netinkamo jo naudojimo ir užtikrinti visišką saugumą.

Be to, bendrovė teigia, kad prieš išleisdama ją visuomenei griežtai išbandys savo V2A technologiją. Kol kas, atsižvelgiant į tai, ką „Google“ demonstravo ir pažadėjo ateičiai, ši technologija formuojasi kaip didelė pažanga kuriant AI sukurtus vaizdo įrašus.

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *