{"id":3555,"date":"2025-05-01T18:24:26","date_gmt":"2025-05-01T11:24:26","guid":{"rendered":"https:\/\/www.linuxid.net\/istilah\/?p=3555"},"modified":"2025-05-01T18:24:26","modified_gmt":"2025-05-01T11:24:26","slug":"speech-recognition","status":"publish","type":"post","link":"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/","title":{"rendered":"speech recognition"},"content":{"rendered":"<p>Speech recognition atau biasa disebut speech-to-text, adalah kemampuan suatu mesin atau program untuk mengenali kata-kata yang diucapkan dan mengubahnya menjadi teks yang bisa dibaca. Versi dasarnya biasanya hanya bisa mengenali kosa kata terbatas dan ucapan yang jelas. Tapi software yang lebih canggih bisa memahami ucapan alami, berbagai aksen, dan banyak bahasa sekaligus.<\/p>\n<p>Speech recognition melibatkan banyak riset lintas bidang, termasuk ilmu komputer, linguistik, dan teknik komputer. Banyak perangkat modern dan aplikasi berbasis teks sekarang sudah dibekali fitur ini supaya penggunaannya jadi lebih praktis atau bahkan hands-free. Ini beda ya dari text-to-speech, yang justru mengubah teks menjadi suara.<\/p>\n<p>Oh ya, penting juga buat dibedakan antara speech recognition dan <a href=\"https:\/\/www.linuxid.net\/istilah\/voice-recognition-speaker-recognition\/\">voice recognition<\/a>. Dua teknologi ini punya fungsi yang beda:<\/p>\n<ul class=\"default-list\/\">\n<li><b>Speech recognition<\/b> fokusnya mengenali kata yang diucapkan.<\/li>\n<li><b>Voice recognition<\/b> adalah teknologi biometrik buat mengenali siapa yang bicara.<\/li>\n<\/ul>\n<h2>Gimana cara kerja speech recognition?<\/h2>\n<p>Sistem speech recognition memanfaatkan <a href=\"https:\/\/www.linuxid.net\/istilah\/algorithm\/\">algoritma<\/a> untuk memproses suara lalu mengubahnya jadi teks. Proses dasarnya biasanya lewat langkah-langkah berikut:<\/p>\n<ol class=\"default-list\/\">\n<li>Menganalisis audio yang direkam.<\/li>\n<li>Memecah audio jadi beberapa bagian.<\/li>\n<li>Mendigitalkan data tersebut agar bisa dibaca komputer.<\/li>\n<li>Menggunakan algoritma untuk mencocokkan suara dengan teks yang paling sesuai.<\/li>\n<\/ol>\n<p>Software-nya juga harus adaptif karena gaya bicara manusia itu sangat bervariasi. Jadi, algoritma speech recognition biasanya dilatih dengan berbagai pola bicara, bahasa, dialek, aksen, hingga gaya pengucapan. Selain itu, sistem juga harus bisa memisahkan suara pembicara dari suara latar (noise).<\/p>\n<p>Ada dua model utama yang dipakai dalam sistem ini:<\/p>\n<ul class=\"default-list\/\">\n<li><b>Acoustic model<\/b> \u2013 menggambarkan hubungan antara elemen linguistik dan sinyal audio.<\/li>\n<li><b>Language model<\/b> \u2013 mencocokkan suara dengan urutan kata untuk membedakan kata yang bunyinya mirip.<\/li>\n<\/ul>\n<h2>Jenis-jenis speech recognition<\/h2>\n<p>Software speech recognition dibagi jadi dua jenis:<\/p>\n<ul class=\"default-list\/\">\n<li><b>Speaker-dependent<\/b> \u2013 butuh proses pelatihan awal dari pengguna supaya hasilnya lebih akurat. Cocok buat tugas seperti dikte atau transkripsi.<\/li>\n<li><b>Speaker-independent<\/b> \u2013 bisa dipakai siapa saja karena menggunakan pola suara generik. Misalnya untuk voice search atau sistem <a href=\"https:\/\/www.linuxid.net\/istilah\/Interactive-Voice-Response-IVR\/\">IVR<\/a>, walaupun akurasinya bisa lebih rendah.<\/li>\n<\/ul>\n<p>Berdasarkan input, ada tiga jenis data yang digunakan:<\/p>\n<ul class=\"default-list\/\">\n<li><b>Controlled<\/b> \u2013 input sudah ditentukan, seperti perintah standar: &#8220;turn off the lights&#8221;.<\/li>\n<li><b>Semicontrolled<\/b> \u2013 input bisa variasi dari satu maksud, misalnya: \u201cArah ke coffee shop\u201d bisa diucapkan dengan banyak versi.<\/li>\n<li><b>Natural<\/b> \u2013 percakapan bebas seperti di telepon, yang butuh algoritma dan resource paling kompleks.<\/li>\n<\/ul>\n<h2>Speech recognition dipakai di mana aja sih?<\/h2>\n<p>Banyak banget bidang yang udah pakai teknologi ini:<\/p>\n<ul class=\"default-list\/\">\n<li><b>Perangkat mobile<\/b> \u2013 buat call routing, voice typing, voice search (contoh: Siri di iPhone, dikte di Microsoft Word).<\/li>\n<li><b>Pendidikan<\/b> \u2013 bantu latihan pelafalan, cocok juga buat siswa disabilitas.<\/li>\n<li><b>Layanan pelanggan<\/b> \u2013 chatbot, Alexa, serta transkripsi percakapan customer service untuk analisis tren.<\/li>\n<li><b>Kesehatan<\/b> \u2013 buat mencatat rekam medis dokter, mengurangi beban dokumentasi klinis.<\/li>\n<li><b>Layanan keuangan<\/b> \u2013 nasabah bisa transaksi lewat perintah suara, bahkan dengan verifikasi <i>voice recognition<\/i>.<\/li>\n<li><b>Dukungan disabilitas<\/b> \u2013 teks otomatis lewat <a href=\"https:\/\/www.linuxid.net\/istilah\/closed-captions\/\">closed caption<\/a> dan kontrol suara untuk pengguna dengan keterbatasan gerak.<\/li>\n<li><b>Pelaporan sidang<\/b> \u2013 transkripsi otomatis di pengadilan.<\/li>\n<li><b>Dikte<\/b> \u2013 untuk transkripsi cepat, apalagi kalau digabung dengan <a href=\"https:\/\/www.linuxid.net\/istilah\/generative-AI\/\">generative AI<\/a>.<\/li>\n<li><b>Emotion recognition<\/b> \u2013 analisis nada suara untuk mengetahui emosi pembicara.<\/li>\n<li><b>Komunikasi hands-free<\/b> \u2013 pengemudi bisa pakai voice command untuk kontrol musik, GPS, dll.<\/li>\n<\/ul>\n<h2>Fitur penting dalam speech recognition<\/h2>\n<p>Fitur yang bikin software speech recognition makin berguna antara lain:<\/p>\n<ul class=\"default-list\/\">\n<li><b>Language weighting<\/b> \u2013 memberi bobot pada kata-kata tertentu, contohnya nama produk.<\/li>\n<li><b>Acoustic training<\/b> \u2013 bantu filter suara latar seperti kantor ramai. <a href=\"https:\/\/thesai.org\/Downloads\/Volume11No4\/Paper_55-Acoustic_Modeling_in_Speech_Recognition.pdf\/\">Baca lebih lanjut di sini<\/a>.<\/li>\n<li><b>Speaker labeling<\/b> \u2013 bisa mengenali siapa yang bicara dalam percakapan.<\/li>\n<li><b>Profanity filtering<\/b> \u2013 menyensor kata-kata kasar atau ofensif.<\/li>\n<li><b>Bias management<\/b> \u2013 menyesuaikan model agar inklusif terhadap berbagai aksen dan bahasa. Lihat juga: <a href=\"https:\/\/www.linuxid.net\/istilah\/machine-learning-bias-algorithm-bias-or-AI-bias\/\">AI bias<\/a>.<\/li>\n<li><b>Data protection<\/b> \u2013 enkripsi data untuk informasi sensitif, mematuhi regulasi seperti <a href=\"https:\/\/www.linuxid.net\/istilah\/General-Data-Protection-Regulation-GDPR\/\">GDPR<\/a> dan <a href=\"https:\/\/www.linuxid.net\/istilah\/HIPAA\/\">HIPAA<\/a>.<\/li>\n<\/ul>\n<h2>Algoritma dalam speech recognition<\/h2>\n<p>Beberapa teknologi dan algoritma penting yang jadi dasar kerja sistem ini:<\/p>\n<ul class=\"default-list\/\">\n<li><b>Hidden Markov Model (HMM)<\/b> \u2013 cocok buat sistem yang nggak bisa langsung observasi semua data, contohnya untuk <a href=\"https:\/\/www.linuxid.net\/istilah\/Markov-model\/\">acoustic modeling<\/a>.<\/li>\n<li><b>Natural Language Processing (NLP)<\/b> \u2013 bantu proses bahasa alami secara efisien. Lihat: <a href=\"https:\/\/www.linuxid.net\/istilah\/natural-language-processing-NLP\/\">NLP<\/a>.<\/li>\n<li><b>N-grams<\/b> \u2013 metode statistik untuk prediksi urutan kata.<\/li>\n<li><b>Artificial Intelligence<\/b> \u2013 khususnya <a href=\"https:\/\/www.linuxid.net\/istilah\/AI-Artificial-Intelligence\/\">AI<\/a>, <a href=\"https:\/\/www.linuxid.net\/istilah\/machine-learning-ML\/\">machine learning<\/a>, dan neural networks, banyak dipakai di software speech recognition modern.<\/li>\n<\/ul>\n<h2>Kelebihan speech recognition<\/h2>\n<p>Beberapa keuntungan menggunakan software ini:<\/p>\n<ul class=\"default-list\/\">\n<li><b>Interaksi manusia-mesin lebih alami<\/b> \u2013 bisa bicara langsung pakai bahasa sehari-hari.<\/li>\n<li><b>Mudah diakses<\/b> \u2013 banyak tersedia di perangkat sehari-hari.<\/li>\n<li><b>Praktis<\/b> \u2013 user-friendly dan bisa jalan di background.<\/li>\n<li><b>Terus belajar otomatis<\/b> \u2013 sistem AI makin pintar seiring penggunaan.<\/li>\n<\/ul>\n<h2>Kekurangan speech recognition<\/h2>\n<p>Meski praktis, teknologi ini masih punya tantangan:<\/p>\n<ul class=\"default-list\/\">\n<li><b>Akurasi belum konsisten<\/b> \u2013 bisa salah tangkap karena aksen, noise, atau keterbatasan bahasa.<\/li>\n<li><b>Kecepatan<\/b> \u2013 proses bisa terasa lambat tergantung kompleksitasnya.<\/li>\n<li><b>Masalah kualitas audio<\/b> \u2013 hasil dipengaruhi alat rekam, bukan cuma software-nya.<\/li>\n<\/ul>\n<h2>Perkembangan dan masa depan speech recognition<\/h2>\n<p>Speech recognition terus berkembang. Dulu, keterbatasan utama ada di hardware seperti prosesor dan RAM. Tapi sekarang, berkat cloud computing dan otomatisasi ASR, masalah itu mulai terselesaikan.<\/p>\n<p>Perkembangan NLP dan <a href=\"https:\/\/www.linuxid.net\/istilah\/large-language-model-LLM\/\">large language model (LLM)<\/a> yang didukung AI dan deep learning bikin teknologi ini makin andal. Ke depannya, sistem seperti ChatGPT kemungkinan akan makin terintegrasi dengan speech recognition.<\/p>\n<p><em>AI terus mengubah speech recognition ke arah yang lebih canggih. Ikuti tren dan penerapan terbarunya di berbagai sektor.<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Speech recognition atau biasa disebut speech-to-text, adalah kemampuan suatu mesin atau program untuk mengenali kata-kata yang diucapkan dan mengubahnya menjadi teks yang bisa dibaca. Versi dasarnya biasanya hanya bisa mengenali kosa kata terbatas dan ucapan yang jelas. Tapi software yang lebih canggih bisa memahami ucapan alami, berbagai aksen, dan banyak bahasa sekaligus. Speech recognition melibatkan [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[187],"tags":[102],"class_list":["post-3555","post","type-post","status-publish","format-standard","hentry","category-data-analytics-and-ai","tag-customer-service-and-contact-center"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v24.9 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Apa itu speech recognition? - Istilah Komputer<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/\" \/>\n<meta property=\"og:locale\" content=\"id_ID\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Apa itu speech recognition? - Istilah Komputer\" \/>\n<meta property=\"og:description\" content=\"Speech recognition atau biasa disebut speech-to-text, adalah kemampuan suatu mesin atau program untuk mengenali kata-kata yang diucapkan dan mengubahnya menjadi teks yang bisa dibaca. Versi dasarnya biasanya hanya bisa mengenali kosa kata terbatas dan ucapan yang jelas. Tapi software yang lebih canggih bisa memahami ucapan alami, berbagai aksen, dan banyak bahasa sekaligus. Speech recognition melibatkan [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/\" \/>\n<meta property=\"og:site_name\" content=\"Istilah Komputer\" \/>\n<meta property=\"article:published_time\" content=\"2025-05-01T11:24:26+00:00\" \/>\n<meta name=\"author\" content=\"adhit\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Ditulis oleh\" \/>\n\t<meta name=\"twitter:data1\" content=\"adhit\" \/>\n\t<meta name=\"twitter:label2\" content=\"Estimasi waktu membaca\" \/>\n\t<meta name=\"twitter:data2\" content=\"4 menit\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/\",\"url\":\"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/\",\"name\":\"Apa itu speech recognition? - Istilah Komputer\",\"isPartOf\":{\"@id\":\"https:\/\/linuxid.net\/istilah\/#website\"},\"datePublished\":\"2025-05-01T11:24:26+00:00\",\"author\":{\"@id\":\"https:\/\/linuxid.net\/istilah\/#\/schema\/person\/ec7c6c711087fb70886ff5a4fe68e83d\"},\"breadcrumb\":{\"@id\":\"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/#breadcrumb\"},\"inLanguage\":\"id\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/linuxid.net\/istilah\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"speech recognition\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/linuxid.net\/istilah\/#website\",\"url\":\"https:\/\/linuxid.net\/istilah\/\",\"name\":\"Istilah Komputer\",\"description\":\"\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/linuxid.net\/istilah\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"id\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/linuxid.net\/istilah\/#\/schema\/person\/ec7c6c711087fb70886ff5a4fe68e83d\",\"name\":\"adhit\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"id\",\"@id\":\"https:\/\/linuxid.net\/istilah\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/www.linuxid.net\/istilah\/wp-content\/litespeed\/avatar\/808829c8eb1b70c161b392916104c2ba.jpg?ver=1778403130\",\"contentUrl\":\"https:\/\/www.linuxid.net\/istilah\/wp-content\/litespeed\/avatar\/808829c8eb1b70c161b392916104c2ba.jpg?ver=1778403130\",\"caption\":\"adhit\"},\"sameAs\":[\"https:\/\/linuxid.net\/istilah\"],\"url\":\"https:\/\/www.linuxid.net\/istilah\/author\/xsandradietsax\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Apa itu speech recognition? - Istilah Komputer","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/","og_locale":"id_ID","og_type":"article","og_title":"Apa itu speech recognition? - Istilah Komputer","og_description":"Speech recognition atau biasa disebut speech-to-text, adalah kemampuan suatu mesin atau program untuk mengenali kata-kata yang diucapkan dan mengubahnya menjadi teks yang bisa dibaca. Versi dasarnya biasanya hanya bisa mengenali kosa kata terbatas dan ucapan yang jelas. Tapi software yang lebih canggih bisa memahami ucapan alami, berbagai aksen, dan banyak bahasa sekaligus. Speech recognition melibatkan [&hellip;]","og_url":"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/","og_site_name":"Istilah Komputer","article_published_time":"2025-05-01T11:24:26+00:00","author":"adhit","twitter_card":"summary_large_image","twitter_misc":{"Ditulis oleh":"adhit","Estimasi waktu membaca":"4 menit"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/","url":"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/","name":"Apa itu speech recognition? - Istilah Komputer","isPartOf":{"@id":"https:\/\/linuxid.net\/istilah\/#website"},"datePublished":"2025-05-01T11:24:26+00:00","author":{"@id":"https:\/\/linuxid.net\/istilah\/#\/schema\/person\/ec7c6c711087fb70886ff5a4fe68e83d"},"breadcrumb":{"@id":"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/#breadcrumb"},"inLanguage":"id","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.linuxid.net\/istilah\/speech-recognition\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/www.linuxid.net\/istilah\/speech-recognition\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/linuxid.net\/istilah\/"},{"@type":"ListItem","position":2,"name":"speech recognition"}]},{"@type":"WebSite","@id":"https:\/\/linuxid.net\/istilah\/#website","url":"https:\/\/linuxid.net\/istilah\/","name":"Istilah Komputer","description":"","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/linuxid.net\/istilah\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"id"},{"@type":"Person","@id":"https:\/\/linuxid.net\/istilah\/#\/schema\/person\/ec7c6c711087fb70886ff5a4fe68e83d","name":"adhit","image":{"@type":"ImageObject","inLanguage":"id","@id":"https:\/\/linuxid.net\/istilah\/#\/schema\/person\/image\/","url":"https:\/\/www.linuxid.net\/istilah\/wp-content\/litespeed\/avatar\/808829c8eb1b70c161b392916104c2ba.jpg?ver=1778403130","contentUrl":"https:\/\/www.linuxid.net\/istilah\/wp-content\/litespeed\/avatar\/808829c8eb1b70c161b392916104c2ba.jpg?ver=1778403130","caption":"adhit"},"sameAs":["https:\/\/linuxid.net\/istilah"],"url":"https:\/\/www.linuxid.net\/istilah\/author\/xsandradietsax\/"}]}},"_links":{"self":[{"href":"https:\/\/www.linuxid.net\/istilah\/wp-json\/wp\/v2\/posts\/3555","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.linuxid.net\/istilah\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.linuxid.net\/istilah\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.linuxid.net\/istilah\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.linuxid.net\/istilah\/wp-json\/wp\/v2\/comments?post=3555"}],"version-history":[{"count":1,"href":"https:\/\/www.linuxid.net\/istilah\/wp-json\/wp\/v2\/posts\/3555\/revisions"}],"predecessor-version":[{"id":5752,"href":"https:\/\/www.linuxid.net\/istilah\/wp-json\/wp\/v2\/posts\/3555\/revisions\/5752"}],"wp:attachment":[{"href":"https:\/\/www.linuxid.net\/istilah\/wp-json\/wp\/v2\/media?parent=3555"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.linuxid.net\/istilah\/wp-json\/wp\/v2\/categories?post=3555"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.linuxid.net\/istilah\/wp-json\/wp\/v2\/tags?post=3555"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}