Lisan Episode ke-24: Linguistik Komputasi: Pertemuan Bahasa dan Teknologi

oleh Narabahasa

Narabahasa menyelenggarakan Selisik Kebahasaan (Lisan) episode ke-24 pada Rabu, 25 Juni 2025 pukul 19.00–20.00 WIB dengan topik “Linguistik Komputasi: Pertemuan Bahasa dan Teknologi”. Acara ini diselenggarakan pada ruang Zoom Meeting dan disiarkan langsung melalui kanal YouTube Narabahasa.

Episode kali ini menghadirkan Prihantoro, dosen Universitas Diponegoro dan pengajar linguistik komputasi di Universitas Negeri Jakarta. Ia meraih gelar magister linguistik dari Hankuk University of Foreign Studies, Korea Selatan, dan doktor linguistik korpus dari Lancaster University, Inggris. Saat ini, ia aktif mengembangkan sumber daya linguistik digital untuk bahasa Indonesia, seperti korpus, tagger, dan sistem anotasi morfologis.

Dalam pemaparannya, Prihantoro menjelaskan bahwa linguistik komputasi merupakan cabang ilmu yang mempertemukan bahasa dan teknologi, terutama dalam bidang natural language processing (NLP) atau dalam bahasa Indonesia diterjemahkan sebagai pemrosesan bahasa alami. Ia menekankan bahwa bahasa adalah data terbesar di dunia digital, dan kemajuan teknologi memungkinkan pemrosesan bahasa secara otomatis maupun semiotomatis.

Ia juga menguraikan dua pendekatan utama dalam linguistik komputasi, yakni berbasis aturan (rule-based) dan berbasis data (data-driven). Salah satu poin menarik adalah penjelasan mengenai pendekatan vektor semantik, yaitu metode untuk menemukan kata-kata dengan makna serupa berdasarkan kemunculannya dalam konteks yang mirip.

Teknologi linguistik ini memungkinkan komputer melakukan berbagai tugas kebahasaan, seperti speech-to-text, machine translation, pencarian informasi, dan analisis sentimen publik. Namun, ia juga menggarisbawahi keterbatasan sistem berbasis aturan, terutama dalam menangani variasi ujaran. Oleh sebab itu, metode probabilistik digunakan untuk membentuk rumus otomatis berdasarkan pola data, bukan sekadar mengikuti aturan baku.

Beberapa konsep dasar dalam pemrosesan bahasa juga dibahas, seperti tokenisasi, part-of-speech tagging, parsing, named entity recognition, dan analisis semantik, termasuk pemilihan makna dalam konteks dan pemetaan hubungan antarkonsep.

Salah satu tantangan utama dalam pengembangan NLP adalah kualitas data latih (training data). Model pembelajaran mesin memerlukan data berlabel yang bersih, konsisten, dan dapat diuji ulang. “Kalau datanya buruk, hasilnya pun akan buruk. Kita butuh gold standard data,” tegas Prihantoro.

Setelah pemaparan, dibuka juga sesi diskusi. Anisa Rifka, alumnus Bahasa dan Sastra Indonesia, bertanya mengenai hal-hal yang membentuk kompetensi untuk mendalami linguistik komputasi. Menanggapi hal itu, Prihantoro membagikan pengalaman studinya di Korea Selatan dan menyampaikan pentingnya mengenalkan linguistik korpus dan pemrograman sejak jenjang S-1.

Peserta lain, Aulia, menyoroti pentingnya keterampilan numerasi di bidang kebahasaan serta perlunya pelatihan yang berkelanjutan. Untuk menjawabnya, Prihantoro menceritakan pengalamannya mengelola lokakarya (workshop) linguistik korpus selama lima hari dengan praktik langsung dan sesi umpan balik dari para ahli.

“Kemandirian adalah suatu hal yang baik. Kita sebagai pelajar tidak akan tergantung pada satu figur saja,” ujarnya.

Lisan episode ke-24 ditutup dengan ajakan dari Prihantoro untuk terlibat lebih jauh dalam pengembangan teknologi bahasa. Menurutnya, bahasa Indonesia belum cukup terwakili dalam sistem akal imitasi (AI) global.

 

Penulis: Yuhaenida Meilani

Penyunting: Rifka Az-zahra

Anda mungkin tertarik membaca

Tinggalkan Komentar