G

Технологија претварања текста у говор

📚 Шта је ТТС (претварање текста у говор)?

Претварање текста у говор, такође названо ТТС, је облик технологије подршке која доноси лакоћу и удобност у животу. Систем чита дигиталне текстове довољно гласно и јасно да их особа разуме. ТТС је такође познат као технологија читања наглас, широко прихваћена због своје флексибилности. Удаљен је једним додиром, где се текст веб локације претвара у аудио.

Систем се шири на све уређаје као што су паметни телефони, лаптопови, стони рачунари и таблети, који се сматрају идеалним за децу, публику старију од 20 година и особе са инвалидитетом. Борба за читање и напрезање очију према електронским уређајима су нестали са ТТС-ом, док се повећава фокус, учење и навика читања онлајн кроз слушање. Дакле, ако сте блогер, читалац или власник веб локације, ТТС је софтвер који ће проширити ваш хоризонт знања. Али које су предности имати глас за све, без ограничења и без граница? Одвојено је према корисницима јер су они особа која користи услуге.

Омогућавање људима да разговарају са машинама је дугогодишњи сан о интеракцији човека и рачунара. Способност рачунара да разуме природни говор је револуционисана у последњих неколико година применом дубоких неуронских мрежа (нпр. Гоогле Воице Сеарцх). Међутим, генерисање говора помоћу рачунара — процес који се обично назива синтеза говора или претварање текста у говор (ТТС) — и даље се у великој мери заснива на тзв конкатенативни ТТС, где се веома велика база података кратких фрагмената говора снима са једног говорника и затим се поново комбинује да би се формирала потпуна исказа. Ово отежава модификацију гласа (на пример, пребацивање на другог звучника, или промену нагласка или емоција њиховог говора) без снимања потпуно нове базе података.

📚 Како функционише ТТС технологија?

ТТС процес укључује неколико фаза:

  • 1. Унос текста: Први корак је да унесете текст који желите да претворите у говор. Ово може бити писани документ, веб страница, разговор са четботом или чак објава на друштвеним мрежама.
  • 2. Анализа текста: Текст се затим анализира како би се утврдио тачан изговор, интонација и ритам. Ово укључује идентификацију појединачних речи, фраза и реченица, као и контекста у коме се користе.
  • 3. Синтеза говора: Анализирани текст се затим обрађује коришћењем алгоритама за синтезу говора за генерисање одговарајућег аудио излаза. Ово укључује креирање дигиталне репрезентације изговорених речи, укључујући висину, тон и јачину звука.
  • 4. Аудио излаз: Последњи корак је производња аудио излаза, који се може репродуковати преко звучника, слушалица или других аудио уређаја.

📚 Врсте ТТС технологије

Постоји неколико типова ТТС технологије, укључујући:

  • Системи засновани на правилима: Ови системи користе унапред дефинисана правила за генерисање говора. Они су једноставни и ефикасни, али можда неће произвести висококвалитетан говор.
  • Статистички модели: Ови системи користе статистичке моделе за генерисање говора. Они су напреднији од система заснованих на правилима и могу произвести говор вишег квалитета.
  • Вештачка интелигенција (АИ): Ови системи користе АИ алгоритме за генерисање говора. Они су најнапреднији тип ТТС технологије и могу произвести веома природан и конверзацијски говор.

📚 Предности ТТС-а!

ГСпеецх нуди многе функције, укључујући онлајн, СааС, локална решења за претварање текста у говор (ТТС) за широк спектар извора као што су веб странице, мобилне апликације, е-књиге, материјал за е-учење, документи, свакодневно корисничко искуство, транспорт искуство, и још много тога. Како предузеће, организација и издавачи који интегришу ТТС технологију имају користи.

🎯 Повећана приступачност

ТТС технологија пружа већу доступност особама са оштећењем вида, дислексијом или потешкоћама у читању, омогућавајући им да приступе информацијама и лакше комуницирају.

🎯 Побољшани СЕО

Пружањем алтернативног начина да корисници конзумирају ваш садржај, можете побољшати оптимизацију претраживача (СЕО) своје ВордПресс веб странице. Ово је посебно важно за кориснике који се ослањају на читаче екрана за навигацију вебом.

🎯 Побољшано корисничко искуство

ТТС технологија може побољшати корисничко искуство пружајући природнији и интуитивнији начин интеракције са уређајима, смањујући потребу за ручним куцањем или читањем.

🎯 Побољшана корисничка услуга

ТТС технологија може пружити корисничку подршку 24/7, одговарајући на често постављана питања и пружајући информације корисницима на ефикаснији и ефективнији начин.

🎯 Повећана продуктивност

ТТС технологија може повећати продуктивност аутоматизацијом задатака као што су унос података, транскрипција и читање, ослобађајући време за важније задатке.

🎯 Вишејезична подршка

ТТС технологија може да подржи више језика, што је чини вредним алатом за предузећа и организације које послују глобално.

🎯 Побољшано разумевање читања

ТТС технологија може побољшати разумевање читања омогућавајући корисницима да слушају текст док прате писану реч, што олакшава разумевање сложених информација.

🎯 Смањено напрезање очију

ТТС технологија може смањити напрезање и замор очију тако што пружа алтернативу читању и куцању, што је чини вредним алатом за појединце који проводе дуге сате испред екрана.

🎯 Повећана ангажованост

ТТС технологија може повећати ангажовање пружањем интерактивнијег и импресивног искуства, што је чини вредним алатом за образовне и забавне апликације.

🎯 Конкурентска предност

ТТС технологија може да обезбеди конкурентску предност нудећи јединствен и иновативан начин интеракције са уређајима, издвајајући ваш производ или услугу од конкуренције.

То је довело до велике потражње за параметарски ТТС, где се све информације потребне за генерисање података чувају у параметрима модела, а садржај и карактеристике говора се могу контролисати преко улаза у модел. Међутим, до сада је параметарски ТТС звучао мање природно него конкатенативно. Постојећи параметарски модели обично генеришу аудио сигнале пропуштањем њихових излаза кроз алгоритме за обраду сигнала познате као вокодери.

ВавеНет мења ову парадигму директним моделирањем сировог таласног облика аудио сигнала, један по један узорак. Осим што даје природнији звук, коришћење необрађених таласних облика значи да ВавеНет може да моделира било коју врсту звука, укључујући музику.

ВавеНет: генеративни модел за необрађени звук



Истраживачи обично избегавају моделирање необрађеног звука јер он тако брзо откуцава: обично 16,000 узорака у секунди или више, са важном структуром у многим временским скалама. Изградња потпуно ауторегресивног модела, у коме је предвиђање за сваки од тих узорака под утицајем свих претходних (статистички речено, свака предиктивна дистрибуција је условљена свим претходним запажањима), очигледно је изазован задатак.


Међутим, ПикелРНН ПикелЦНН модели, објављени раније, показали су да је могуће генерисати сложене природне слике не само један пиксел у исто време, већ један по канал у боји, што захтева хиљаде предвиђања по слици. Ово нас је инспирисало да прилагодимо наше дводимензионалне ПикелНет једнодимензионалне ВавеНет.




Горња анимација показује како је ВавеНет структуриран. То је потпуно конволуциона неуронска мрежа, где конволуциони слојеви имају различите факторе дилатације који омогућавају његовом рецептивном пољу да расте експоненцијално са дубином и покрива хиљаде временских корака.


У време тренинга, улазне секвенце су прави таласни облици снимљени са људских звучника. Након обуке, можемо узорковати мрежу да генеришемо синтетичке исказе. У сваком кораку током узорковања вредност се извлачи из дистрибуције вероватноће коју је израчунала мрежа. Ова вредност се затим враћа назад у улаз и прави се ново предвиђање за следећи корак. Прављење семплова корак по корак је компјутерски скупо, али сматрамо да је неопходно за генерисање сложеног звука који реалистично звучи.


Побољшање стања технике

Тренирали смо ВавеНет користећи неке од Гоогле-ових ТТС скупова података како бисмо могли да проценимо његов учинак. Следећа слика приказује квалитет ВавеНетс-а на скали од 1 до 5, у поређењу са Гоогле-овим тренутно најбољим ТТС системима (параметар конкатенативно), и коришћењем људског говора Средња оцена мишљења (МОС). МОС су стандардна мера за субјективне тестове квалитета звука, а добијени су у слепим тестовима са људима (од преко 500 оцена на 100 тест реченица). Као што видимо, ВавеНетс смањују јаз између најсавременијег нивоа и перформанси на људском нивоу за преко 50% и за амерички енглески и за мандарински кинески.


И за кинески и за енглески, Гоогле-ови тренутни ТТС системи се сматрају међу најбољим у свету, тако да је побољшање оба помоћу једног модела велико достигнуће.




ГСпеецх има АИ алгоритам за синтезу гласа, који је један од најнапреднијих и најреалистичнијих у послу. Већина синтисајзера гласа (укључујући Аппле-ов Сири) користи оно што се назива конкатенативном синтезом, у којој програм складишти појединачне слогове - звукове као што су "ба", "схт" и "оо" - и спаја их у ходу да формира речи и реченице . Ова метода је постала прилично добра током година, али и даље звучи неуредно.


ВавеНет, за поређење, користи машинско учење за генерисање звука од нуле. Он заправо анализира таласне облике из огромне базе података људског говора и поново их креира брзином од 24,000 узорака у секунди. Крајњи резултат укључује гласове са суптилностима као што су шмек усана и акценти. Када је Гоогле први пут представио ВавеНет 2016. године, био је превише рачунарски интензиван да би радио ван истраживачких окружења, али је од тада значајно смањен, показујући јасан пут од истраживања до производа.



11.06.2020
Померите свој садржај на следећи ниво! Испробајте ГСпеецх одмах!
Региструјте се бесплатно