Gépi nyelv: hogyan Siri veszi fel a hangokat?
Makradar A Technológia / / December 19, 2019
A Google, az Apple, a Microsoft és az Amazon még aktívan fejlesztik hang alapú szolgáltatásokat. Frissen sült iOS 7 ugyanaz Siri, csak az új funkciók és... hangja. Van csoda, hogy ez a folyamat? Ahogy a számítógépek tanítják beszédet? ezt igazi művészet.
Az egyes hangok Siri - a színész. Miután befejezte szerepét az artikuláció, a munka még csak most kezdődött... A férfi hangja folytatja útját. A történet ezen az úton, mind az ember és a robot - az egyik legösszetettebb technológiai folyamatok, amelyeket nem lehetett elvégezni tíz évvel ezelőtt.
Nézzük, hogy megismerjék a rendező tervezés és fejlesztés a hang Nuance, ez az egyik legnagyobb független vállalat a világon foglalkozó beszédfelismerés és szöveget beszéddé. Brant Ward (J. Brant Ward) szokott lenni egy zeneszerző össze a párt vonósnégyesek a szintetizátorok, és most ő komponálja meg a szintetikus hangokat. Dolgozik a beszédszintetizátor iparág a Szilícium-völgyben több mint egy évtizede.
Text to Speech - egy nagyon versenyképes ipar, illetve az alkalmazottak nagyon titokzatos. Bár a világ, és úgy véli, hogy a Nuance teremt a hangja Siri, Ward és kollégája David Vasquez (David Vazquez) elkerülje a közvetlen választ. Mindazonáltal, megállapodtak abban, hogy ismertesse, legalábbis általánosságban hogyan létrehozásának folyamatát egy csodálatos gép szavazat.
Mondanom sem kell, nem kell artikulálni és írni minden szót a szótárban. De amikor a kérelem, amelyet be kell olvasni olyan híreket a hírlevél, vagy talál valami Önnek az interneten, ez egyszerűen kötelesek ismerni minden szót a szótárban.
A javaslatok többsége kerülnek kiválasztásra a „jólét fonetika” - azaz bennük sok különböző kombinációi fonémák. „A tény az, hogy minél több adattal rendelkezünk, annál valósághűbb lesz az eredmény,” - mondja Ward.
Miután a szöveg rögzített élő színész hangja (egy unalmas folyamat, amely több hónapig is eltarthat), nagyon kemény munka kezdődik. A szavak és mondatok elemezzük, osztva kategóriák és felvett egy nagy adatbázis. Ebben az összetett munka egy csapat lelkes nyelvész, valamint hogy saját nyelvi szoftver.
Amikor mindez megtörtént, a készülék a Nuance lefordítani szöveget beszéddé teremt bites szavakat és kifejezéseket, amelyek a színész Sosem mondott, de úgy hangzik, nagyon hasonlít a beszéd a színész, mert technikailag ez a hang színész.
Process beszélő eszméletlen. Mi ez gondolkodás nélkül, hogy ez a folyamat megy végbe: a helyzetet, amelyben a mi nyelv, amely kapcsolatok között épült fonémák, és így tovább -, hogy könnyen és hatékonyan kifejezni összetett gondolatok és érzelmek. De ahhoz, hogy a számítógép felvette a hang az emberi hangok, mindezeket a tényezőket kell figyelembe venni. Ahogy az egyik tanár a nyelvészet, az a feladata, „Titanic”.
Nem szabad azt gondolni: „beszélek a számítógép.” Ön általában nem kell gondolni rá.
„A gyerekek is kölcsönhatásba lépnek a Siri, mintha egy élőlény... Nem érzik a különbséget” - mondta Ward.
Eddig és a barátság az emberek és robotok - például emberre. Sokan szeretnék, ha Siri képes felismerni az érzelmi állapot a hangszóró, és valahogy reagálnak rá (például tartalmaz egy nyugtató hang üzemmód). Képzeld - beszélni a robot, amely erkölcsileg pat akkor a fejét. Talán Nuance már gondolkodtam rajta ...