G

Симон Погосјан, оснивач и извршни директор компаније GSpeech

Симон Погосјан, оснивач и извршни директор компаније GSpeech

Симон Погхосиан је оснивач и извршни директор компаније GSpeech, веб-базирана AI платформа која помаже да садржај на мрежи буде приступачнији претварањем текста у звук природног звука на преко 70 језика. Са искуством у VLSI дизајну и великим интересовањем за програмирање и корисничко искуство, Сајмон је креирао GSpeech како би поједноставио начин на који веб-сајтови могу да понуде садржај који је омогућен гласом.

Данас, GSpeech генерише око 200 милиона знакова аудио записа сваког месеца и користи се у преко 70 земаља, а његови прилагодљиви аудио плејери опслужују преко 200,000 репродукција месечно. Након што је недавно премашио укупно генерисаних милијарду знакова аудио записа, GSpeech наставља брзо да расте. Платформа је дизајнирана да се лако интегрише — захтева само једну линију кода — и подржава креаторе, едукаторе и предузећа да свој садржај учине инклузивнијим и занимљивијим.

Ваше искуство у VLSI дизајну (интеграција веома великих размера) и рано програмирање поставили су снажну техничку основу. Шта је инспирисало ваш прелазак са микроелектронике на изградњу софтвера заснованог на вештачкој интелигенцији и како је то довело до стварања GSpeech-а?

Моја страст за решавањем проблема почела је у средњој школи, вођена љубављу према математици и физици. То интересовање ме је довело до дипломе основних студија (2009) и мастер студија (2011) из области VLSI дизајна на Државном инжењерском универзитету Јерменије, у сарадњи са Synopsys Jermenia. Студирање физике ме је обучило прецизности и аналитичком размишљању, али тек током друге године сам открио програмирање — почевши од језика Pascal — и одмах сам се заљубио у њега. Мој пријатељ и ја бисмо завршавали курсеве чим бисмо их добили, иако смо имали шест месеци до краја. Онда смо, забаве ради, почели да радимо задатке других студената.

Ова страст ме је дубље увела у развој софтвера. Почео сам са креирањем веб страница, а затим сам направио сопствени CMS. Након што сам завршио неколико пројеката у аутоматизацији процеса и дизајнирању архитектура за управљање подацима, схватио сам колико волим израду дигиталних решења за веб интерфејсе. Кроз пројекат 2GLux, сарађивао сам са Едвардом Анањаном — творцем популарног GTranslate преводилачка служба и школски друг из Квантумске гимназије. Упознао ме је са екосистемима Вордпреса и Џумле и концептом за GSpeech настао је од њега. Тај рани рад довео је до прве верзије нашег алата, омогућавајући корисницима да слушају текст на веб страници, посејавши семе за оно што ће касније постати потпуно функционална AI платформа. До 2023. године сам основао Смартс Цлуб ЛЛЦ у размери GSpeech у глобално АИ аудио решење, које подржава више од 70 језика. Humanity UnionПохвале корисника за улогу GSpeech-а у побољшању приступачности њихове платформе за грађанско ангажовање одражавају моју мисију да премостим дигиталне јазе кроз вештачку интелигенцију — визију укорењену у мојим раним данима програмирања.

GSpeech је првобитно настао као алат за подршку слабовидим корисницима. Како је та рана мисија утицала на еволуцију платформе у потпуно функционално решење за претварање текста у говор помоћу вештачке интелигенције?

Фокус на приступачност подстакао је развој висококвалитетног вештачке интелигенције (AI) звука у реалном времену, превода на преко 70 језика и беспрекорне интеграције са веб-сајтом путем једноставног исечка кода. Ова мисија је довела до функција као што су прилагодљиви аудио плејери, панели за избор језика и гласа, репродукција у зависности од контекста, преузимање аудио записа и детаљна статистика коришћења — укључујући земљу, град, податке о уређају и аналитику репродукције током времена — све осмишљено да садржај учини инклузивнијим и занимљивијим. Након што сам написао преко 100,000 линија кода, 2023. године сам покренуо GSpeech Cloud Console — скалабилно решење које уравнотежује инклузивност са напредном функционалношћу, оснажујући предузећа и креаторе да свој садржај учине приступачним, вишејезичним и интерактивним широм веба.

Који су били неки од највећих техничких изазова са којима сте се суочили током развоја GSpeech Cloud конзоле?

Један од највећих изазова у развоју GSpeech Cloud конзоле био је дизајнирање скалабилне архитектуре за генерисање висококвалитетног звука помоћу вештачке интелигенције у реалном времену. Ово је захтевало иновативна решења за преузимање релевантног садржаја са веба, обраду звука на нашим серверима и његово складиштење у облаку ради брзе и поуздане испоруке. Имплементација робусних безбедносних мера, попут шифровања и контроле приступа, била је кључна за заштиту динамичког садржаја који генеришу корисници.

Још једна препрека била је омогућавање превођења у реалном времену коришћењем напредних неуронских механизама. Морали смо да обезбедимо преводе са малом латенцијом и тачношћу, док смо истовремено градили интуитиван интерфејс који корисницима омогућава да бирају језике и жељене гласовне профиле за репродукцију, дајући приоритет удобности корисника и персонализацији. Коначно, развили смо чаробњак за креирање аудио шаблона са више прилагодљивих приказа плејера, омогућавајући корисницима да дизајнирају јединствене, визуелно привлачне плејере прилагођене њиховим веб-сајтовима. Балансирање флексибилности, перформанси и једноставности коришћења на различитим уређајима био је задовољавајући изазов.

Са преводом у реалном времену на преко 70 језика и преко 230 природно звучећих гласова. Како осигуравате квалитет гласа и одржавате тачност у тако разноврсном језичком скупу?

Да бисмо одржали конзистентан квалитет гласа, интегришемо више напредних модела претварања текста у говор (TTS) који се континуирано оптимизују и ажурирају. Ови вишејезични механизми обрађују садржај на више језика са великом тачношћу. Такође уводимо преко 100 нових гласовних вибрација како бисмо корисницима пружили још изражајније и природније звучне опције. Сваког месеца, GSpeech генерише преко 200 милиона знакова звука, опслужујући кориснике у више од 70 земаља, а наши онлајн плејери се користе преко 200,000 пута месечно — и тај број расте. Ова скала обезбеђује континуиране повратне информације и тестирање у стварном свету, што директно утиче на наше подешавање и контролу квалитета.

Можете ли нам објаснити како GSpeech користи вештачку интелигенцију и машинско учење да би пружио реалистичну синтезу гласа? Како пратите брзи напредак у технологији неуронског гласа?

GSpeech користи напредну вештачку интелигенцију и машинско учење, интегришући више најсавременијих модела претварања текста у говор како би произвео реалистичну синтезу гласа. Ови модели, оптимизовани за природност и вишејезичну подршку, обрађују текстуалне уносе како би генерисали висококвалитетни звук са реалистичном интонацијом и ритмом, чак и за садржај на мешовитим језицима. Побољшавамо корисничко искуство нудећи прилагодљиве стилове гласа за различите језике. Такође смо интегрисали TTS алијасе, који омогућавају корисницима да дефинишу прилагођена правила за то како се одређене речи или фразе приказују у звуку — на пример, заменом одређених термина ради постизања тачнијег изговора или фразирања. Да бисмо остали у току са технологијом неуронског гласа, континуирано процењујемо и интегришемо најновија достигнућа, сарађујемо са лидерима у индустрији и планирамо да развијемо сопствене моделе у будућности, осигуравајући да GSpeech остане у првим редовима иновација у синтези гласа.

Колико је важно подешавање гласа, контрола висине тона и прилагођавање репродукције вашим корисницима - и у ком случају сте најпоноснији и где ове функције заиста блистају?

Подешавање гласа, контрола висине тона и прилагођавање репродукције су кључни за наше кориснике, омогућавајући им да креирају јединствене, висококвалитетне гласовне стилове прилагођене њиховим специфичним потребама, од веб страница са вестима и блоговима до приступачног садржаја за е-учење. Текућа интеграција преко 100 нових гласовних вибрација додатно побољшава ово, нудећи корисницима ненадмашну флексибилност за креирање заиста препознатљивих гласовних преноса. Најпоноснији сам на GSpeech Studio, нову платформу за уређивање и генерисање звука коју развијам. Он омогућава корисницима да креирају више аудио канала, комбинују их са музиком у позадини и извозе углађене гласовне преносе, оснажујући креаторе да производе аудио професионалног квалитета за различите примене. Писмо студента са оштећеним видом, у којем се захваљује GSpeech-у што је омогућио самостално учење кроз прилагођени звук, дубоко ме је дирнуло. Овај случај употребе показује како ове функције чине садржај приступачним и трансформативним, циљ којим тежим од својих раних дана програмирања.

GSpeech нуди беспрекорне интеграције са WordPress-ом, Shopify-ом, Wix-ом и другима. Која је била ваша стратегија да платформа буде „plug-and-play“ за креаторе и предузећа у различитим екосистемима?

Наша стратегија за GSpeech-ове plug-and-play интеграције са платформама као што су WordPress, Shopify и Wix фокусирана је на једноставност, компатибилност и скалабилност. Развили смо лагане, модуларне додатке и исечке кода који се беспрекорно интегришу, захтевајући минимално подешавање - често само неколико кликова. То значи да хиљаде чланака и динамичких блокова садржаја могу тренутно добити гласовну подршку - без ручног напора. Нудимо веома флексибилне, лепо дизајниране плејере који се прилагођавају различитим уређајима, укључујући мобилне телефоне, таблете и десктоп рачунаре. Наши плејери нису само прилагодљиви, већ су и оптимизовани за приступачност и ангажовање корисника. За WordPress, уградили смо GSpeech cloud контролну таблу директно у администраторски панел путем нашег додатка, поједностављујући управљање за кориснике. Детаљна документација и интуитивне контролне табле воде нетехничке кориснике кроз инсталацију и прилагођавање. Редовно тестирање обезбеђује конзистентне перформансе у различитим екосистемима, оснажујући креаторе и предузећа да без напора додају претварање текста у говор помоћу вештачке интелигенције.

Осврћући се на пут од 2012. до данас, која је била највећа прекретница за вас лично или професионално у изградњи GSpeech-а?

Највећа прекретница за GSpeech била је генерисање милијарде знакова висококвалитетног вештачког интелигенцијског звука, што је показало наш глобални утицај на приступачност. Подједнако значајне биле су повратне информације које смо добили од организација попут Humanity Union, које су похвалиле GSpeech због унапређења њихове платформе за друштвену одговорност, и од власника блогова који су га назвали „прекретницом“ за ангажовање корисника. Преко 1 петозвезданих рецензија на платформама попут WordPress АппСумо последњих месеци одражавају ово растуће поверење.

GSpeech сада активно користе и Регионални одсек за статистику Намангана у Узбекистану — владина институција са значајним саобраћајем и видљивошћу на националном нивоу. Чињеница да јавни орган тако широко усваја нашу технологију била је значајна прекретница и снажан знак поверења у наше решење.

Као хришћанин и неко ко служи у јерменској цркви, трудим се да подржим и друге верске иницијативе кад год је то могуће. Често нудим GSpeech бесплатно хришћанским веб-сајтовима као начин да ефикасније шире своју поруку и учине Свето писмо приступачнијим путем аудио записа. То је мој мали допринос нечему већем. Истовремено, част ми је што сарађујем са посвећеним службама као што су... Тхе Цорд — месијанска конгрегација и цењени GSpeech клијент — чија мисија и садржај одражавају моћ Светог писма на делу.

Ови тренуци — када технологија постаје мост за веру, разумевање и инклузију — подсећају ме зашто смо уопште направили GSpeech.

Какву улогу видите да ће GSpeech играти у будућности дигиталних медија, посебно како аудио садржај и гласовни интерфејси постају све доминантнији?

Замишљам GSpeech као лидера у томе да дигиталне медије учинимо приступачнијим и занимљивијим омогућавањем гласовног приступа вебу помоћу вештачке интелигенције. Наш циљ је да трансформишемо целокупно онлајн искуство, тако да веб странице постану природно интерактивне, инклузивне и вишејезичне по подразумеваним подешавањима. Са само једном линијом кода, власници сајтова могу претворити хиљаде чланака у озвучени садржај. У будућности развијамо GSpeech Studio у моћну и јединствену платформу за генерисање и уређивање звука, омогућавајући корисницима да креирају вишеслојни гласовни садржај са музиком у позадини, ефектима и прецизним подешавањем. Желимо да веб учинимо заиста чујним, интуитивним и универзално приступачним.

GSpeech је недавно покренут на AppSumo-у и већ је добио скоро савршену оцену од раних корисника. Шта је за вас значио одговор AppSumo заједнице и како планирате да наставите даље са овим замахом?

Покретање AppSumo-а је представило GSpeech милионима људи, а његова скоро савршена оцена је невероватно потврђујућа. Корисници, попут оних који воде онлајн курсеве, хвале наше интуитивне алате и брзу подршку, понављајући повратне информације од Humanity Union-а. Власник блога је назвао наше гласове „истински занимљивим“ и преводе „импресивним“. Њихове позитивне повратне информације потврђују вредност нашег решења за претварање текста у говор заснованог на вештачкој интелигенцији и подстичу моју страст према пројекту. Подршка клијентима током покретања такође је покренула нове идеје, посебно за GSpeech Studio, који је инспирисан захтевима корисника за напредне функције за уређивање и извоз звука. У будућности планирам да надоградим овај замах активним слушањем наше заједнице, интегрисањем њихових повратних информација и развојем иновативних функција за побољшање приступачности и ангажовања, осигуравајући да GSpeech настави да се развија као трансформативни алат за креаторе и предузећа.

На крају, који савет бисте дали младим програмерима или предузетницима који желе да направе приступачне алате засноване на вештачкој интелигенцији у данашњем брзопроменљивом технолошком окружењу?

Младим програмерима и предузетницима, мој савет је да уложе срце у свој рад и идентификују прави проблем где можете понудити јединствено, паметно решење. Почните мало, правите стабилне кораке напред и пажљиво слушајте повратне информације купаца – оне ће вас водити путем. Третирајте своје кориснике као поуздане пријатеље, дајте све од себе и будите стрпљиви. Прихватите технологије вештачке интелигенције као моћне савезнике; када се користе мудро, оне појачавају вашу способност да креирате утицајне, приступачне алате. Градите са страшћу, упорношћу и посвећеношћу прављењу промене и створићете решења која су заиста важна.

Хвала Антоан Тардиф за интервју. Можете прочитати цео интервју овде: ујединити.аи.

🎬 Видео снимци

🎬 ГСпеецх - Видео обилазак
🎬 Откријте GSpeech: Трансформишите текст у аудио помоћу вештачке интелигенције!
Померите свој садржај на следећи ниво! Испробајте ГСпеецх одмах!
Гет ГСпеецх