ZF TechDay

ZF Tech Day. Horia Cucu, cofondator al Zevo Tech – tehnologie de recunoaştere vocală: Vrem să creştem portofoliul de clienţi şi să ne extindem şi pe alte pieţe. Până la finalul acestui an vrem să avem încă trei limbi de circulaţie europeană pentru tehnologia de speech to text

21.09.2023, 00:07 Autor: Alexandra Cepăreanu

Zevo Tech face parte din programul Orange FAB, cu ajutorul căruia a reuşit să dezvolte soluţia de recunoaştere vocală, dar şi să atragă clienţi care să folosească produsele create „În prezent produsele Zevo Tech sunt în portofoliul Orange Business şi pot fi furnizate către clienţii Orange“  „Avem discuţii şi despre o finanţare pentru că avem o sumedenie de clienţi activi în mai multe domenii şi avem nevoie să creăm un «aparat» de vânzări pentru a putea scala.“

Start-up-ul Zevo Tech, care a dezvoltat o tehnologie de recu­noaş­tere vocală axată în principal pe zona de call-centere, zona media, monitorizare şi cea medicală, are ca obiectiv pentru anul în curs creşterea numărului de clienţi, iar în 2024 îşi propune să îşi extindă activitatea pe trei noi pieţe europene.

„Creşterea numărului de clienţi este principalul obiectiv pentru anul 2023 şi aş zice că până acum lucrurile au mers şi merg destul de bine, iar toamna aceasta ne va aduce şi acel plus de clienţi pe care ni l-am propus la începutul anului. Deci o să încheiem anul cu un portofoliu de clienţi mult mai bogat decât a fost în 2022. În plus, ca start-up ne punem problema de a ne extinde şi pe alte pieţe, iar în prezent lucrăm şi avem în plan ca până la finalul acestui an să avem încă trei limbi de circulaţie europeană pentru tehnologia de speech to text. Avem deja soluţii pentru câteva limbi europene pentru tehnologia de text to speech şi trebui să vedem cum abordăm şi pieţele externe, cel mai probabil în cursul anului viitor“, a spus Horia Cucu, co-fondator al Zevo Tech şi cercetător în cadrul Universităţii Politehnica din Bucureşti, prezent la emisiunea ZF Tech Day.

El a adăugat că portofoliul de clienţi al companiei Zevo Tech a crescut pe parcursul anului în curs, însă, estimările pentru finalul anului 2023 arată o posibilă scădere a veniturilor faţă de anul anterior.

„Legat de portofoliul de clienţi sunt schimbări majore în sensul că am decis să ne concentrăm strict pe proiectele personale ale firmei, adică pe produsele firmei şi astfel avem mai puţine proiecte de consultanţă, dar mai mulţi clienţi care folosesc produsele noastre. Per ansamblu ne aşteptăm la o scădere a veniturilor în 2023 faţă de 2022, dar la o creştere semnificativă a veniturilor generate de produsele proprii.“

Zevo Tech face parte din programul de accelerare Orange FAB - prin care operatorul telecom susţine proiectele de tehnologie aflate la început de drum, implementând soluţiile acestora în cadrul propriei organizaţii, dar şi pentru un portofoliu extins de clienţi. Astfel, în prezent, produsele dezvoltate de Zevo Tech sunt acum în portofoliul Orange Business.

„Participarea în Orange Fab este un lucru important pentru un start-up tech, un pas pe care l-am făcut acum doi ani şi care s-a dovedit a fi unul câştigător pentru că Orange Fab ne-a ajutat mult în dezvoltarea de funcţionalităţi noi, ne-a ajutat în promovarea companiei şi a produselor la conferinţe de profil şi în obţinerea unor clienţi. Practic, în prezent produsele Zevo Tech intră în portofoliul Orange Business şi pot fi furnizate către clienţii Orange. De asemenea, suntem şi în situaţia în care având această expertiză în AI (artificial intelligence) putem să răspundem unor solicitări poate un pic diferite de produsele standard pe care le oferim ca start-up şi putem să venim cu adaptări sau funcţionalităţi suplimentare pe care clienţii Orange le solicită“, a explicat Horia Cucu.

El a menţionat că în prezent echipa din cadrul Zevo Tech discută şi atragerea unei finanţări de la business angels, investitori privaţi sau fonduri de investiţii, pentru a susţine scalarea businessului şi a investi în zona de marketing şi vânzări.

„Este o discuţie în momentul de faţă în echipa noastră pentru că n-aş spune că e nevoie de finanţe pentru partea de dezvoltare tehnică, pentru cercetare - care este într-o continuă dezvoltare în echipa noastră - sau pentru partea de dezvoltare de software, dar este util să investim mai mult în zona de marketing şi vânzări. Nu pot oferi un răspuns ferm în momentul acesta, discutăm în echipă despre obţinerea unei finanţări pentru a creşte numărul de clienţi. Avem acum o sumedenie de clienţi activi în mai multe domenii şi avem nevoie să creăm «un aparat» de vânzări pentru a putea scala.“

Pe termen mediu şi lung, reprezentanţii Zevo Tech au în plan extinderea soluţiilor pe care le-au dezvoltat deja şi integrarea mai multor tehnologii de procesare a limbajului natural.

„Într-un interval de timp mediu, ceea ce ne propunem este să extindem soluţiile pe care le avem deja integrând soluţii de natural language processing (nlp) mai complete şi complexe, pentru că ceea ce văd în momentul de faţă este că modelele de limbă mari - LLM-urile, precum Chat GPT - pot să ofere nişte beneficii reale în foarte multe domenii şi coroborând partea aceasta cu speech-ul, procesarea de vorbire pe care noi o realizăm, ne imaginăm deja nişte proiecte extrem de interesante. Avem unele proiecte puse pe roadmap şi cred că începând de aici ar putea să iasă lucruri extraordinare. Deci, în următorii trei -cinci ani, vrem să avem produse care să înglobeze mai mult tehnologii de procesare de limbaj natural“, a adăugat Horia Cucu.

 

Ce a mai spus Horia Cucu la ZF Tech Day

Zevo Tech este un spin off pornit din Universitatea Politehnică din Bucureşti. Suntem o echipă tânără de cercetători pasionaţi de tehnologia de procesare a vorbirii şi de AI în general, iar produsele noastre se axează în zona de procesare de vorbire, transcriere de vorbire, speeach to text şi text to speech, identificarea vorbitorului, recunoaşterea emoţiilor din vorbire - astea sunt tehnologiile pe care le integrăm în diverse produse în funcţie de necesităţile fiecărei direcţii de business.

Povestea Zevo Tech începe cu teza mea de doctorat care s-a finalizat în 2011, moment în care a apărut primul sistem de transcriere a vorbirii pentru limba română, cu performanţe limitate şi raportate la acel nivel de tehnologie dar era prima soluţie care putea să trascrie vorbirea cu acurateţe de 80% la acel moment. În anii care au urmat echipa noastră din Politehnică s-a tot dezvoltat, am abordat tot felul de proiecte de cercetare în această direcţie de transcriere a vorbii, sinteză de vorbire, recunoaştere a vorbitorului şi am ajuns să lucrăm cu algoritmi, să inventăm alţi algoritmi, să propunem metode care să aibă o acurateţe foarte bună pentru limba română. Acestea au fost etapele premergătoare şi de aici au reieşit şi primele activităţi de consultanţă în această zonă. Am avut proiecte cu companii din Portugalia, din Marea Britanie, ca urmare a ceea ce prezentam şi a numelui pe care ni l-am făcut la conferinţele internaţionale pe zona ştiinţifică.

În aceşti ani care au trecut grupul nostru de cercetare şi apoi start-up-ul s-a confruntat cu diverse provocări. Practic, pentru limba română primul pas pe care a trebuit să îl facem a fost crearea de seturi de date de antrenare pentru astfel de soluţii pentru că la momentul acela, în 2008 când am început eu teza de doctorat nu exista absolut deloc vorbirea etichetată cu ajutorul căreia să poţi să creezi primele modele, deşi o serie de algoritmi existau nu aveai date pentru limba română şi atunci în toţi anii care au urmat echipa noastră a lucrat atât pe direcţia de generare de date pentru antrenarea modelelor cât şi pe direcţia de creare de algoritmi din ce în ce mai competitivi şi adaptaţi specificităţilor limbii române.

Acum avem tehnologia dar ne mai lipsesc datele pentru produse noi, pentru proiecte noi. Spre exemplu, pe nişa de recunoaştere a sentimentelor din text încă nu există seturi de date pentru limba română sau sunt foarte puţine pentru a crea un produs comercial, la fel şi pentru sumarizare – avem puţine seturi de date deşi tehnologia există deja şi ar putea fi aplicată.

Ce sunt aceste seturi de date? Orice soluţie de artificial intelligence, orice astfel de model învaţă din exemple pentru transcriere de vorbire. Exemplele sunt fişierele audio de la intrare şi textul aferent, adică transcrierea la ieşire. Pentru un model de sumarizare de text exemplele sunt textul original la intrare şi sumarul la ieşire şi este nevoie de zeci de mii sau sute de mii de exemple de astfel de date, de text sau audio pentru ca un model de inteligenţă artificială să poată să înveţe din acele exemple. Adică trebuie să aibă mai multe variante, moduri ca să poată să recunoască corect înregistrarea audio în care se pronunţă diferite cuvinte.

Din Politehnică cunosc cel puţin patru – cinci exemple de spin off de succes, colegi care au pornit proiecte de cercetare şi care au transformat prototipuri în aplicaţii comerciale.

Am fost suficient de naivi la început să credem că un un prototip cu o acurateţe foarte bună este suficient pentru a reprezenta o parte importantă dintr-un produs comercial şi nu este aşa. Asta contează poate un 30% iar restul de 70% este acoperită de partea de integrare într-unn sistem cu interfaţă grafică prietenoasă, scalabilitate, securitate, componente cloud – aici vorbim strict de partea tehnică care aduce încă un 30-40% - apoi urmează toată partea de networking şi business, marketing, vânzări alt 30%.

La Zevo Tech aveam cu preponderenţă proiecte de consultanţă din care ne-am şi autofinanţat la început. În momentul curent lucrăm doar la produsele proprii şi acestea atacă mai multe verticale - avem clienţi în zona de media şi monitorizare, avem clienţi în zona de call-center şi clienţi în domeniul medical pentru dictare de rapoarte şi rezultat.

Principalul diferenţiator este paleta largă de tehnologii care sunt înglobate în produsele noastre şi care oferă funcţionalităţi suplimentare faţă de alte produse, spre exemplu, putem să oferim soluţii de voice bot (tehnologie prin care companiile care deţin un call center pot să automatizeze interacţiunile cu clienţii. clientul nu mai e întâmpinat de un mesaj audio preînregistrat - pentru limba română apasă tasta 1 – ci primeşte mesaje personalizate, generate pe loc de robotul telefonic) care au nevoie atât de transcriere de vorbire speech to text cât şi de text to speech. Avem ambele tehnologii dezvoltate. În zona de analiză de apeluri pentru centrale telefonice putem să oferim atât partea de transcriere de vorbire cât şi partea de analiză a emoţiilor, dar şi partea de identificare a vorbitorului care a apelat respectiva centrală telefonică şi atunci îmbinând aceste trei tehnologii putem să oferim funcţionalităţi suplimentare diferenţiindu-ne de competiţie.

Emisiunea ZF TechDay este realizată de Ziarul Financiar cu susţinerea Orange Techday