Elképesztően élethű AI-beszélgetőpartner került kifejlesztésre, amely valódi hátborzongató hatást gyakorol a felhasználókra.


Kautzky Armand felesége a szakítás kapcsán így fogalmazott: "Gyakran felmerül bennem a kérdés, hogy valójában hol is állok én ebben az egészben?"

A cég február végén bemutatta a társalgási beszédmodell (CSM) demóverzióját, amely úgy tűnik, hogy már túllépett az uncanny valley fogalmán. Ez a jelenség akkor lép életbe, amikor egy mesterségesen létrehozott, emberihez hasonló program annyira élethű, hogy az emberek tudják, hogy nem valós, de mégis zavaróan közel áll az igazihoz. Az új modell éppen ezen a határon egyensúlyozik, és ez a hihetőség már-már félelmetes hatást gyakorol ránk.

A Sesame beszédmodellje a tesztelők tapasztalatai szerint olyan erős érzelmi hatást gyakorolt, hogy sokan már valóban kötődni kezdtek hozzá. Az Ars Technica is alaposan megvizsgálta a modellt, és cikkükben kiemelték, hogy a mesterséges hang rendkívül kifejező és dinamikus volt. A beszéd során légzési hangok, kuncogások és megszakítások is megjelentek, sőt, időnként nyelvbotlások is előfordultak, amelyeket a modell ügyesen kijavított. A készítők szándékosan építették bele ezeket a kis tökéletlenségeket, hogy a végeredmény még hitelesebb és életszerűbb legyen.

A Sesame-nál arra törekszünk, hogy megvalósítsuk a "hangjelenlét" fogalmát, ami azt a különleges minőséget jelenti, amely által a verbális interakciók hitelesnek, világosnak és értékesnek tűnnek. Célunk, hogy olyan beszélgetőpartnereket alkossunk, akik nem csupán a kéréseket kezelik, hanem valódi, élő párbeszédet folytatnak, amely hosszú távon bizalmat teremt. Ezzel a megközelítéssel szeretnénk felfedezni a hangban rejlő eddig kiaknázatlan lehetőségeket, amelyek az oktatás és a megértés új dimenzióját nyithatják meg - írja a vállalat egy friss blogbejegyzésében.

A motorháztető alatt a Sesame CSM két, egymással együttműködő mesterséges intelligencia modell (egy gerinc és egy dekóder) segítségével éri el realizmusát, amelyek a Meta Llama architektúráján alapulnak, és egymásba ágyazott szöveget és hangot dolgoznak fel. A Sesame háromféle méretű mesterségesintelligencia-modellt képzett ki, a legnagyobbat 8,3 milliárd paraméterrel (egy 8 milliárd paraméteres gerincmodell és egy 300 millió paraméteres dekóder), körülbelül 1 millió órányi, elsősorban angol nyelvű hanganyagon.

A Sesame CSM új, innovatív megközelítést képvisel a szöveg-beszéd rendszerek világában, eltérve a hagyományos kétlépcsős módszerektől, amelyek sokáig uralták a területet. Ahelyett, hogy a szemantikai tokenek (magas szintű beszédreprezentációk) és az akusztikai elemek (finomabb hangjellemzők) generálása külön fázisokban történne, a Sesame CSM egy egylépcsős, multimodális transzformátoralapú modellt alkalmaz. Ez lehetővé teszi, hogy a szöveg és a hangtocelek integrált módon, egymással szorosan együttműködve jöjjenek létre a beszéd előállítása során. Az OpenAI hangmodellje is hasonló multimodális megközelítést alkalmaz, ami tovább erősíti a modern beszédtechnológiai megoldások irányvonalát.

Related posts