Претварање текста у говор, такође названо ТТС, је облик технологије подршке која доноси лакоћу и удобност у животу. Систем чита дигиталне текстове довољно гласно и јасно да их особа разуме. ТТС је такође познат као технологија читања наглас, широко прихваћена због своје флексибилности. Удаљен је једним додиром, где се текст веб локације претвара у аудио.
Систем се шири на све уређаје као што су паметни телефони, лаптопови, стони рачунари и таблети, који се сматрају идеалним за децу, публику старију од 20 година и особе са инвалидитетом. Борба за читање и напрезање очију према електронским уређајима су нестали са ТТС-ом, док се повећава фокус, учење и навика читања онлајн кроз слушање. Дакле, ако сте блогер, читалац или власник веб локације, ТТС је софтвер који ће проширити ваш хоризонт знања. Али које су предности имати глас за све, без ограничења и без граница? Одвојено је према корисницима јер су они особа која користи услуге.
Омогућавање људима да разговарају са машинама је дугогодишњи сан о интеракцији човека и рачунара. Способност рачунара да разуме природни говор је револуционисана у последњих неколико година применом дубоких неуронских мрежа (нпр. Гоогле Воице Сеарцх). Међутим, генерисање говора помоћу рачунара — процес који се обично назива синтеза говора или претварање текста у говор (ТТС) — и даље се у великој мери заснива на тзв конкатенативни ТТС, где се веома велика база података кратких фрагмената говора снима са једног говорника и затим се поново комбинује да би се формирала потпуна исказа. Ово отежава модификацију гласа (на пример, пребацивање на другог звучника, или промену нагласка или емоција њиховог говора) без снимања потпуно нове базе података.
ТТС процес укључује неколико фаза:
Постоји неколико типова ТТС технологије, укључујући:
ГСпеецх нуди многе функције, укључујући онлајн, СааС, локална решења за претварање текста у говор (ТТС) за широк спектар извора као што су веб странице, мобилне апликације, е-књиге, материјал за е-учење, документи, свакодневно корисничко искуство, транспорт искуство, и још много тога. Како предузеће, организација и издавачи који интегришу ТТС технологију имају користи.
ТТС технологија пружа већу доступност особама са оштећењем вида, дислексијом или потешкоћама у читању, омогућавајући им да приступе информацијама и лакше комуницирају.
Пружањем алтернативног начина да корисници конзумирају ваш садржај, можете побољшати оптимизацију претраживача (СЕО) своје ВордПресс веб странице. Ово је посебно важно за кориснике који се ослањају на читаче екрана за навигацију вебом.
ТТС технологија може побољшати корисничко искуство пружајући природнији и интуитивнији начин интеракције са уређајима, смањујући потребу за ручним куцањем или читањем.
ТТС технологија може пружити корисничку подршку 24/7, одговарајући на често постављана питања и пружајући информације корисницима на ефикаснији и ефективнији начин.
ТТС технологија може повећати продуктивност аутоматизацијом задатака као што су унос података, транскрипција и читање, ослобађајући време за важније задатке.
ТТС технологија може да подржи више језика, што је чини вредним алатом за предузећа и организације које послују глобално.
ТТС технологија може побољшати разумевање читања омогућавајући корисницима да слушају текст док прате писану реч, што олакшава разумевање сложених информација.
ТТС технологија може смањити напрезање и замор очију тако што пружа алтернативу читању и куцању, што је чини вредним алатом за појединце који проводе дуге сате испред екрана.
ТТС технологија може повећати ангажовање пружањем интерактивнијег и импресивног искуства, што је чини вредним алатом за образовне и забавне апликације.
ТТС технологија може да обезбеди конкурентску предност нудећи јединствен и иновативан начин интеракције са уређајима, издвајајући ваш производ или услугу од конкуренције.
То је довело до велике потражње за параметарски ТТС, где се све информације потребне за генерисање података чувају у параметрима модела, а садржај и карактеристике говора се могу контролисати преко улаза у модел. Међутим, до сада је параметарски ТТС звучао мање природно него конкатенативно. Постојећи параметарски модели обично генеришу аудио сигнале пропуштањем њихових излаза кроз алгоритме за обраду сигнала познате као вокодери.
ВавеНет мења ову парадигму директним моделирањем сировог таласног облика аудио сигнала, један по један узорак. Осим што даје природнији звук, коришћење необрађених таласних облика значи да ВавеНет може да моделира било коју врсту звука, укључујући музику.
Истраживачи обично избегавају моделирање необрађеног звука јер он тако брзо откуцава: обично 16,000 узорака у секунди или више, са важном структуром у многим временским скалама. Изградња потпуно ауторегресивног модела, у коме је предвиђање за сваки од тих узорака под утицајем свих претходних (статистички речено, свака предиктивна дистрибуција је условљена свим претходним запажањима), очигледно је изазован задатак.
Међутим, ПикелРНН ПикелЦНН модели, објављени раније, показали су да је могуће генерисати сложене природне слике не само један пиксел у исто време, већ један по канал у боји, што захтева хиљаде предвиђања по слици. Ово нас је инспирисало да прилагодимо наше дводимензионалне ПикелНет једнодимензионалне ВавеНет.
Горња анимација показује како је ВавеНет структуриран. То је потпуно конволуциона неуронска мрежа, где конволуциони слојеви имају различите факторе дилатације који омогућавају његовом рецептивном пољу да расте експоненцијално са дубином и покрива хиљаде временских корака.
У време тренинга, улазне секвенце су прави таласни облици снимљени са људских звучника. Након обуке, можемо узорковати мрежу да генеришемо синтетичке исказе. У сваком кораку током узорковања вредност се извлачи из дистрибуције вероватноће коју је израчунала мрежа. Ова вредност се затим враћа назад у улаз и прави се ново предвиђање за следећи корак. Прављење семплова корак по корак је компјутерски скупо, али сматрамо да је неопходно за генерисање сложеног звука који реалистично звучи.
Тренирали смо ВавеНет користећи неке од Гоогле-ових ТТС скупова података како бисмо могли да проценимо његов учинак. Следећа слика приказује квалитет ВавеНетс-а на скали од 1 до 5, у поређењу са Гоогле-овим тренутно најбољим ТТС системима (параметар конкатенативно), и коришћењем људског говора Средња оцена мишљења (МОС). МОС су стандардна мера за субјективне тестове квалитета звука, а добијени су у слепим тестовима са људима (од преко 500 оцена на 100 тест реченица). Као што видимо, ВавеНетс смањују јаз између најсавременијег нивоа и перформанси на људском нивоу за преко 50% и за амерички енглески и за мандарински кинески.
И за кинески и за енглески, Гоогле-ови тренутни ТТС системи се сматрају међу најбољим у свету, тако да је побољшање оба помоћу једног модела велико достигнуће.
ГСпеецх има АИ алгоритам за синтезу гласа, који је један од најнапреднијих и најреалистичнијих у послу. Већина синтисајзера гласа (укључујући Аппле-ов Сири) користи оно што се назива конкатенативном синтезом, у којој програм складишти појединачне слогове - звукове као што су "ба", "схт" и "оо" - и спаја их у ходу да формира речи и реченице . Ова метода је постала прилично добра током година, али и даље звучи неуредно.
ВавеНет, за поређење, користи машинско учење за генерисање звука од нуле. Он заправо анализира таласне облике из огромне базе података људског говора и поново их креира брзином од 24,000 узорака у секунди. Крајњи резултат укључује гласове са суптилностима као што су шмек усана и акценти. Када је Гоогле први пут представио ВавеНет 2016. године, био је превише рачунарски интензиван да би радио ван истраживачких окружења, али је од тада значајно смањен, показујући јасан пут од истраживања до производа.