Voice Recognition "Dalam Dunia Medis"

· Sejarah singkat !!!

Speech recognizer yang pertama keluar di tahun 1952 dan terdiri dari device untuk pengenalan satu digit yang diucapkan. Kemudian pada tahun 1964, muncul IBM Shoebox, yang dikeluarkan pada 1963 melalui New York World’s Fair. Salah satu teknologi yang cukup terkenal di Amerika dalam bidang kesehatan adalah Medical Transcriptionist (MT) merupakan aplikasi komersial yang menggunakan speech recognizer. Dan sampai sekarang banyak aplikasi yang dikembangkan menggunakan speech recognizer, antara lain di bidang kesehatan terdapat MT, di bidang militer terdapat High-performance fighter aircraft, Training air traffic controllers, sampai pada alat yang membantu orang-orang yang memiliki kesulitan dalam menggunakan tangan, maka diciptakannya komputer yang dapat dioperasikan menggunakan deteksi pengucapan user. Sebenarnya ada dua pemodelan dasar untuk speech recognition ini yaitu Hidden Markov model (HMM)-based speech recognition dan Dynamic time warping (DTW)- based speech recognition. Modern general-purpose speech recognition system umumnya menggunakan model Hidden Markov. Model ini merupakan model yang statistikal dimana output adalah sekuens dari simbol atau kuantitas. Satu alasan yang mengapa model Hidden Markov digunakan, karena sebuah sinyal dari pengucapan bisa dilihat seperti piecewise stationary signal atau short-time stationary signal. Alasan lainnya mengapa metode ini populer, sederhana dan secara komputasional bisa digunakan. Dynamic time warping adalah pendekatan yang pernah sejarahnya digunakan untuk speech recognition yang sekarang sudah digantikan oleh model Hidden Markov. Pada pengembangannya maka alat speech recognizerdiimplementasikan menggunakan Dynamic Time Wraping Algorithm (DTW). DTW pertama kali dikenalkan pada tahun 60an dan dieksplorasi sampai tahun 70an yang menghasilkan alat speech recognizer. DTW sering digunakan dalam area: handwriting and online signature matching, sign language recognition and gesturesrecognition, data mining and time series clustering, computer vision and computer animation, surveillance, protein sequence alignment and chemical engineering, dan music and signal processing.Sekarang ini, Speech Recognition hanya tersedia di bahasa Inggris, Perancis, Spanyol, Jerman, Jepang, China. Tapi pada umumnya menggunakan bahasa Inggris.

· Teknologi komunikasi

- Sender

- receiver

serial Peripheral Interface (SPI) merupakan salah satu mode komunikasi serial syncrhronous kecepatan tinggi yang dimiliki oleh ATmega8535. Universal Syncrhronous and Asyncrhronous Serial Receiver and Transmitter (USART) juga merupakan salah satu mode komunikasi serial yang dimiliki oleh ATmega8535. USART merupakan komunikasi yang memiliki fleksibilitas tinggi, yang dapat digunakan untuk melakukan transfer data baik antar mikrokontroler maupun dengan modul-modul eksternal termasuk PC yang memiliki fitur UART.

Komponen utama di dalam SAPI 5 adalah sebagai berikut :

a. Voice Command, sebuah obyek level tinggi untuk perintah dan kontrol menggunakan pengenalan suara.

b. Voice Dictation, sebuah obyek level tinggi untuk continous dictation speech recognition.

c. Voice Talk, sebuah obyek level tinggi untuk speech synthesis.

d. Voice Telephony, sebuah obyek untuk menulis aplikasi telepon berbasiskan pengenalan suara.8

e. Direct Speech Recognition, sebuah obyek sebagai mesin untuk mengontrol pengenalan suara (direct control of recognition engine)

f. Direct Text to Speech, sebuah obyek sebagai mesin yang mengontrol synthesis.

g. Audio Object, untuk membaca dari audio device atau sebuah file audio Op.

· Implementasi Algoritma yang digunakan

Pada pengembangannya maka alat speech recognizer diimplementasikan menggunakan Dynamic Time Wraping Algorithm (DTW). DTW pertama kali dikenalkan pada tahun 60an dan dieksplorasi sampai tahun 70an yangmenghasilkan alat speech recognizer. DTW sering digunakan dalam area:handwriting and online signature matching, sign language recognition and gestures recognition, data mining and time series clustering, computer vision and computer animation, surveillance, protein sequence alignment and chemical engineering, dan music and signal processing.

Dan pada makalah kali ini hanya akan membahas implementasi algoritma DTW pada speech recognition.

· Nama algoritma

Dynamic waktu warping (DTW) berbasis speech recognition Pengenalan pembicaraan adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti sistem call center yang dapat mengenali suara sewenang-wenang. Aplikasi pengenalan pembicaraan termasuk user interface seperti suara panggilan suara (misalnya, "Call home"), call routing (misalnya, "Saya ingin membuat collect call"), kontrol alat domotic, pencarian (misalnya, menemukan podcast di mana tertentuKata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi), pengolahan pidato-ke-teks (misalnya, kata prosesor atau email), dan pesawat udara (biasanya disebut Input langsung suara).

· Cara kerja

Dynamic waktu warping (DTW) berbasis speech recognition Artikel utama: Dynamic warping waktu Dynamic waktu warping adalah suatu pendekatan yang secara historis digunakan untuk pengenalan suara tapi kini sebagian besar telah mengungsi akibat pendekatan HMM berbasis lebih berhasil. Dynamic waktu warping adalah suatu algoritma untuk mengukur kesamaan antara dua sekuen yang mungkin berbeda dalam waktu atau kecepatan. Misalnya, kesamaan dalam pola berjalan akan terdeteksi, bahkan jika dalam satu video orang itu berjalan perlahan-lahan dan jika di lain mereka berjalan lebih cepat, atau bahkan jika ada percepatan dan deselerasi selama satu pengamatan. DTW telah diterapkan ke video, audio, dan grafik - memang, setiap data yang dapat berubah menjadi representasi linier dapat dianalisis dengan DTW.

Sebuah aplikasi terkenal telah pengenalan suara otomatis, untuk mengatasi dengan kecepatan berbicara yang berbeda. Secara umum, ini adalah metode yang memungkinkan komputer untuk menemukan kecocokan yang optimal antara dua sekuens diberikan (misalnya time series) dengan pembatasan tertentu, yaitu urutan yang "bengkok" non-linear untuk mencocokkan satu sama lain. Metode sequence alignment yang sering digunakan dalam konteks model Markov tersembunyi.

Jadi, kesimpulannya adalah sebuah system yang dapat menyimpan suara dengan merekamnya dan kita dapat mendengarkannya kembali. Ini bisa juga digunakan pada telepon selular bila telepon selular yang kita pakai tidak aktif maka otomatis jika ada telepon masuk maka suara rekaman kita akan terdengar yang menyampikan tolong tinggalkan pesan anda.tinggalkan pesan anda.

sumber :

http://www.scribd.com/doc/58087911/Voice-Recognition-as-Input-Device

http://asnugroho.net/papers/ti2002.pdf

http://tuneinthelight.wordpress.com/2010/03/22/teknologi-bagi-tuna-netra/

http://ndangmutz.blogspot.com/2010_11_01_archive.html

Life is only once, so take the chance to Enjoy

Kamis, 03 November 2011