Perbandingan Ekstraksi Ciri Full, Blocks, dan Row Mean Spectrogram Image Dalam Mengidentifikasi Pembicara
La Ode Hasnuddin Sagala(1*), Agus Harjoko(2)
(1) 
(2) 
(*) Corresponding Author
Abstract
Abstrak
Pada sebuah sistem recognition, pemilihan metode ekstraksi ciri dan ukuran fitur yang digunakan mempengaruhi tingkat keakuratan identifikasi. Berkaitan dengan hal itu, dalam penelitian ini akan dijabarkan perbandingan tiga metode ekstraksi ciri CBIR yaitu row mean image, full image, dan blocks image. Ketiga metode tersebut digunakan untuk mengidentifikasi pembicara dengan menitikberatkan pada ukuran selection feature vector yang digunakan.
Data suara diperoleh dari rekaman suara menggunakan handphone. Rekaman suara berasal dari 10 orang narasumber dengan rincian 5 pria dan 5 wanita. Setiap narasumber mengucapkan lima buah kalimat yaitu Selamat Pagi, Selamat Siang, Selamat Sore, Selamat Malam, dan Dengan Siapa serta diulangi delapan kali tiap kalimat.
Karena menerapkan metode CBIR maka rekaman suara yang berbentuk sinyal dikonversi menjadi image spectrogram menggunakan STFT. Kemudian spectrogram diimplementasikan ke kekre transform lalu diekstrasi cirinya. Penggunaan kekre transform bertujuan untuk menyeleksi dan mengambil kemungkinan-kemungkinan fitur yang optimal serta juga meringankan proses komputasi.
Menggunakan data reference 250 image spectrogram dan data testing 150 image spectrogram memberikan hasil bahwa metode ekstraksi ciri full image memperoleh persentase identifikasi lebih tinggi yaitu 93,3% dengan ukuran fitur 32x32.
Kata kunci— Identifikasi pembicara, Spektrogram, Transformasi kekre, Full image, Blocks Image, Row mean image
Abstract
On a system of recognition, selection feature extraction method and feature size are used in identification affects identication rate. In that regard, this study will presents comparison three feature extraction methods namely row mean image, full image, and blocks image. The third method used to identify the speaker with a focus on the size selection feature vector are used.
Sound data obtained from the mobile phone voice recording. Sound recording derived from 10 speakers consisting of 5 men and 5 women. Every speakers pronounce five sentences are Selamat Pagi, Selamat Siang, Selamat Sore, Selamat Malam, and Dengan siapa as well as repeated eight times.
Because applying CBIR methods then the sound recording signal is converted into an image spectrogram using STFT. Spectrogram is formed implemented in kekre transform to extract feature. Using kekre transform aims to select and take the possibilities optimal feature also relieves the computing process.
Using reference data 250 spectrogram and testing data 150 spectrogram produces results that the full image feature extraction methods obtain a higher percentage identification rate is 93,3% with a feature size of 32x32.
Keywords— Speaker identification, Spectrogram, Kekre Transform, Full Image, Blocks Image, Row Mean Image
Full Text:
PDFDOI: https://doi.org/10.22146/ijccs.6543
Article Metrics
Abstract views : 1837 | views : 2840Refbacks
- There are currently no refbacks.
Copyright (c) 2014 IJCCS - Indonesian Journal of Computing and Cybernetics Systems
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
View My Stats1