Sprendimai   
 
SIVE v.8_2 Asmens identifikavimo pagal balsą programinė įranga 
IT sistemų priežiūra
Printoscope 
Net Insight 

Kalbos signalų apdorojimo metodų bei balso suvokimo modelių, naudojamų SIVE programinės įrangos pakete, aprašymas.
Nepaisant didelio skaitmeninių kalbos signalų apdorojimo metodų bei teorijos išvystymo, kol kas nėra tiksliai žinoma, kokie kalbos signalo parametrai vienareikšmiškai nusako asmens individualybę. Neaišku, ar tokie parametrai egzistuoja iš viso, ypač nepriklausomi nuo kalbos pobūdžio, asmens emocinės būsenos, garso įrašymo kanalo ir pan. Jei šiuo metu yra gerai išvystyta kalbos signalo generavimo bei kodavimo teorija, tai kalbos suvokimo ir ypač kalbančio asmens atpažinimo vieningos akustinės teorijos kol kas nėra. Todėl visos sukurtos asmens identifikavimo sistemos remiasi tam tikrų požymių, nusakančių ne tik asmens individualybę, bet ir kitas kalbos signalo savybes, sistema. Šie požymiai gaunami iš kalbos signalo, atliekant įvairias transformacijas.
Vokalizuoti kalbos signalai yra energetiškai stipriausi, jų energija koncentruota žemesniųjų dažnių srityje, dėl to jie yra mažiausiai veikiami triukšmo ir perdavimo kanalo. Todėl, nustatant asmenį pagal garso įrašuose užfiksuotą jo balsą, daugiausia remiamasi parametrais, gaunamais iš vokalizuoto kalbos signalo. Vokalizuotas kalbos signalas yra žadinimo signalo arba pagrindinio tono bei jo kartotinių harmonikų ir kalbos trakto gaubiamosios sąsūka. Tokį signalą mes galime aprašyti tiesiniu matematiniu modeliu.
Pagrindinio tono dažnis, kuris turi svarbią identifikacinę vertę, yra vienas iš vokalizuoto signalo parametrų, mažiausiai priklausomų nuo garso įrašymo kanalo ir sąlygų. SIVE pakete pagrindinio tono įvertinimui naudojamas dažninis autokoreliacinis metodas. Kadangi kiekvieno žmogaus kalbos trakto fizinės ypatybės yra skirtingos, pagrindinio tono harmonikų taip pat yra mažiau ar daugiau, jos greičiau ar lėčiau gęsta, todėl be pagrindinio tono dažnio (PITCH) skaičiuojami tokie išvestiniai parametrai, kaip antai: pagrindinio tono didžiausia harmonika (MH), balso skaidrumas (VCL) ir tembras (T).
Vienas iš SIVE paketo modulių atlieka dviejų kalbos signalų pagrindinio tono parametrų palyginimą. Programa pateikia PITCH, MH, VCL ir T minimalios, maksimalios ir vidutinės vertės, dispersijos, variacijos koeficientus bei šių parametrų pasiskirstymų diagramas, jų tarpusavio koreliacijos koeficientus ir, galiausiai, bendrą visų pagrindinio tono parametrų sutapimo koeficientą.
Kitame SIVE programinio paketo modulyje kalbančiojo identifikavimo metodas remiasi vidutinio atstumo tarp tiriamojo ir lyginamųjų balso įrašų skaičiavimu. Remiantis šiuo atstumu, iš balsų bazės surandamas lyginamasis balso įrašas, artimiausias tiriamajam. Toliau pateikiame trumpą šio metodo aprašymą.
Kiekvienas pseudostacionarus vokalizuotų garsų intervalas iš lyginamojo ir tiriamojo garso įrašų yra aprašomas tiesinės prognozės modelio parametrais (LPC) arba kepstro koeficientais, paskaičiuotais iš tiesinės prognozės modelio parametrų (LPCC), atitinkančiais balso traktą ir sužadinimo signalą. Tokiu būdu turime aibę požymių vektorių, atitinkančią tiriamąjį kalbos signalą ir aibę, atitinkančią lyginamąjį kalbos signalą. Skaičiuojamas tikėtinumo santykio atstumas tarp tiriamojo ir lyginamojo balso trakto požymių vektorių bei tarp sužadinimo signalą atitinkančių požymių vektorių. Toliau randamas bendras mažiausias atstumas, tarp tiriamojo požymių vektoriaus ir atitinkamo požymių vektoriaus iš aibės, aprašančios lyginamąjį kalbos signalą. Šis atstumas, atsižvelgiant į svorio koeficiento pasirinkimą, daugiau ar mažiau priklausys nuo balso traktą ar sužadinimo signalą aprašančių parametrų.
Kalbančiojo verifikavimo modulyje, remiantis balso trakto ir sužadinimo signalo intraindividualių ir interindividualių iškraipymų pasiskirstymų sulyginimu, atsakoma į klausimą, ar tiriamasis ir lyginamasis balso įrašai yra pasakyti to paties žmogaus, ar ne.
Kiekvieną kalbantįjį apibūdina taip vadinami intraindividualūs ir interindividualūs iškraipymai. Intraindividualūs iškraipymai – tai atstumų tarp to paties žmogaus skirtingų balso įrašų pasiskirstymas. Interindividualūs iškraipymai – atstumų tarp skirtingų žmonių balso įrašų pasiskirstymas. Kadangi atstumai tarp skirtingų žmonių balso įrašų yra didesni negu tarp to paties žmogaus balso įrašų, tai skirtingų žmonių balso įrašams interindividualių iškraipymų pasiskirstymas būna pasislinkęs intraindividualių iškraipymų pasiskirstymo atžvilgiu. Jeigu abu balso įrašai yra to paties žmogaus, tai intraindividualių iškraipymų pasiskirstymas idealiu atveju turėtų sutapti su interindividualių iškraipymų pasiskirstymu. Paskaičiavus šių pasiskirstymų įvertinimus – histogramas, galima įvertinti jų sutapimo laipsnį ir spręsti, ar tiriamasis ir lyginamasis įrašai yra pasakyti to paties žmogaus.
Šis metodas yra praktiškai visiškai automatizuotas, todėl tyrimas gali būti atliekamas labai operatyviai. Tačiau tai pakankamai efektyvu tik tuomet, kai turime pakankamai geros kokybės lyginamuosius ir tiriamuosius kalbos signalus, kurių įrašymo sąlygas galėtume laikyti esant vienodas. Be to, turi būti pakankamai daug tiriamojo asmens kalbinės medžiagos, nes šis tyrimas remiasi prielaida, kad tiriamąjį ir lyginamąjį kalbos signalus sudaro pilni lygiaverčiai fonemų rinkiniai.
Kai tyrimui pateikiami geros kokybės, tačiau nepakankamos trukmės garso įrašai, identifikuojant asmenį galime pasinaudoti santykinio atstumo tarp tų pačių fonemų įvertinimo metodu. Šis metodas remiasi prielaida, jog turint dvi to paties asmens ištartas tokias pat fonemas, pvz., “a”, ir atlikus jų sutapatinimą pagal pirmas keturias formantes, priklausančias nuo tariamų garsų (ypač dvi pirmosios) ir nuo kalbančiojo balso trakto individulių ypatumų (ypač trečia, ketvirta, penkta), santykinis atstumas turi būti mažiausias.
SIVE programiniame pakete formančių bei jų parametrų suradimui panaudotas spektrinių porų metodas. Pirmiausia tiek lyginamasis, tiek tiriamasis kalbos signalai rankiniu būdu segmentuojami, sudarant atskirų vokalizuotų fonemų rinkinius. Pageidautina, kad kiekvienos fonemos realizacijos bendra trukmė būtų ne mažesnė kaip 0,5-0,7 sek. Kitame etape iš lyginamojo (etaloninio) ir iš tiriamojo signalo gautoms fonemoms paskaičiuojama identifikacinių požymių matrica, kur kiekvienos fonemos signalui imamas 25,6 msek. trukmės kadras ir skaičiuojami 36 parametrai, kuriuos sudaro formančių ir spektrinių porų parametrų įvairios kombinacijos. Tokiu būdu lyginamajam ir tiriamajam signalui gauname po N x 36 (N- kadrų skaičius atitinkamame signale) požymių matricą. Toliau atliekamas šių matricų vektorių sutapatinimas pagal pirmų dviejų formančių dažnius, t.y., imami kiekvieno vektoriaus iš lyginamosios matricos du pirmieji elementai, atitinkantys dviejų pirmųjų formančių dažnius, ir pagal juos ieškomas artimiausias vektorius iš tiriamosios matricos. Radus vektorių, kuriam atstumas pagal pirmas dvi formantes yra mažiausias, skaičiuojamas absoliutus skirtumas tarp kiekvieno šių vektorių elemento. Remiantis šiais skirtumais, skaičiuojamas bendrasis suminis atstumas tarp lyginamosios ir tiriamosios tam tikros fonemos realizacijos, pagal kurį galime priimti sprendimą, nustatant asmenį.
Rezultatų patikimumui užtikrinti vertėtų iš tiriamojo ir lyginamojo garso įrašų išskirti bent po dvi skirtingas fonemas.
Šios asmens identifikavimo pagal balsą programinės įrangos, skirtos teisminei ekspertizei, tikslas – objektyvizuoti balso nustatančiuosius požymius ir jų palyginimą, atvaizduojant juos tam tikrų parametrų statistinių pasiskirstymų diagramomis ir koreliacijos koeficientais tarp šių diagramų. Diagramos ir konkretūs skaičiai įgalina ekspertą priimti motyvuotą sprendimą bei lengviau pagrįsti jo išvadas, lyginant su tradiciniu sonografiniu metodu. Tuo pat metu paspartėja ir pačios ekspertizės atlikimas. Tyrimas tampa nepriklausomu nuo lyginamajame ir tiriamajame garso įrašuose užfiksuoto teksto.
 
                
Pranašumai, lyginant su tradiciniu sonografiniu metodu:
• mokytis eksperto-specialisto darbo gali daugelis gabių techninių darbuotojų;
• fonoskopinei analizei tinka dauguma magnetinių įrašų, kurių signalo ir triukšmo santykis viršija 5-10dB;
• apmokymo laikotarpis darbui su SIVE programa ir kita įranga sutrumpėja nuo 4-6 metų iki 1-2 metų;
• sprendimai priimami, remiantis statistinės analizės metu gautais skaitmeniniais rezultatais bei grafikais, o ne subjektyviais eksperto vertinimais;
• fonemų sulyginimas atliekamas, naudojant iki 36 skirtingų identifikavimo požymių;
 
Ekspertizė atliekama 5 - 10 kartų greičiau.
 

 

Modulių sąrašas

 

1. Pagrindinio tono analizė (PGT):

1.1. Pagrindinio tono ir jo išvestinių parametrų skaičiavimo submodulis (PITCH);       

1.2. Pagrindinio tono ir jo išvestinių parametrų statistinio palyginimo submodulis (PITCHCOM).

 

2. Fonogramų segmentavimo rankiniu būdu modulis (PHONEMES).              

 

3. Fonemų analizės modulis:

3.1. Identifikacinių fonemos parametrų skaičiavimo submodulis (FONVEKWIN);

3.2. Santykinio atstumo tarp fonemų nustatymo submodulis (FONDISTWIN).

 

4. Kalbančiojo identifikavimo modulis:

4.1. Identifikacinių fonemos parametrų skaičiavimo submodulis (CLUSTER);  

4.2. Fonemų etalono požymių matricų formavimo submodulis (ETALON);      

4.3. Etalono ir tiriamos požymių matricos sulyginimo submodulis (VERIF).

 

5. Automatinė asmens balso paieška naudojanti tikėtinumų santykio metodą (LIKELIHOOD RATIO BASED APPROACH) (VOICE).    

SIVE 8_2 Short Description.pdf

Į viršų

© 2017 Visos teisės saugomos. UAB "Baltijos kompiuterių centras". E-solution: Eruditas team