Institut Bahasa Korea Nasional setiap tahun menggelar konferensi ilmiah internasional untuk mencari arah penyusunan data raya bahasa dan budaya Korea. Foto di atas menunjukkan konferensi ilmiah yang digelar tanggal 4 Desember 2025 di Kamar Dagang dan Industri Korea, Jung-gu, Seoul. (Institut Bahasa Korea Nasional)
Penulis: Margareth Theresia
Institut Bahasa Korea Nasional saat ini sedang berupaya mengembangkan teknologi kecerdasan buatan (AI) berbasis bahasa Korea untuk meningkatkan daya saing Korea dalam bidang data raya.
Korpus bahasa Korea saat ini disusun untuk membentuk data raya bahasa Korea sistematis yang bisa digunakan untuk mengembangkan teknologi AI, terutama yang berbasis bahasa Korea.
Korpus merupakan data yang disusun dari data bahasa yang digunakan oleh manusia dalam kegiatannya sehari-hari. Data tersebut lalu diolah agar bisa dibaca oleh komputer.
Data yang digunakan untuk membentuk korpus dapat berupa data lisan maupun tulisan, mulai dari data buku, artikel berita, skrip video YouTube, tulisan blog, dan bahkan percakapan di aplikasi pesan.
Korpus merupakan data penting yang digunakan dalam penelitian dan pendidikan bahasa, serta pengembangan teknologi AI.
Institut Bahasa Korea Nasional saat ini menyusun tiga jenis korpus, yaitu korpus mentah, korpus teranotasi, dan korpus paralel.
Korpus mentah adalah korpus yang diunggah berdasarkan data-data mentah yang dikumpulkan, korpus teranotasi adalah korpus yang diunggah setelah melalui proses analisis per struktur bahasa, dan korpus paralel adalah korpus yang dibuat melalui dasar dua bahasa.
Buku berjudul Panduan Penerjemahan untuk Membentuk Korpus Paralel Bahasa Korea-Bahasa Asing telah (kiri) diterbitkan pada tahun 2023 berdasarkan data yang disusun pada tahun 2021. Institut Bahasa Korea Nasional juga menggelar konferensi ilmiah setiap tahunnya (kanan). (Institut Bahasa Korea Nasional)
Park Miyoung menjelaskan, "Proyek pembentukan Korpus Paralel Bahasa Korea-Bahasa Asing dimulai untuk mendorong pengembangan industri bahasa dan budaya Korea serta menunjang pengembangan teknologi penerjemahan AI yang menggunakan bahasa Korea."
Park merupakan peneliti senior di Divisi Informasi dan Sumber Daya Bahasa Institut Bahasa Korea Nasional.
Proyek tersebut mulai dijalankan berdasarkan "Rencana Strategis Jangka Menengah dan Panjang Penyusunan Data Raya Industri Bahasa dan Budaya Korea" yang diumumkan oleh Kementerian Kebudayaan, Olahraga, dan Pariwisata pada tahun 2021.
Korpus Paralel Bahasa Korea-Bahasa Asing dibuat dengan data bahasa asing yang data rayanya masih kurang untuk proses penerjemahan dengan mesin.
Berdasarkan permintaan pendidikan bahasa Korea dan kebutuhan penerjemahan, delapan bahasa asing dipilih untuk proyek korpus paralel tersebut. Bahasa-bahasa itu adalah bahasa Vietnam, Indonesia, Thailand, Hindi (India), Khmer (Kamboja), Tagalog (Filipina), Rusia, dan Uzbekistan.
Korpus paralel yang disusun oleh Institut Bahasa Korea Nasional memiliki kualitas yang tinggi karena disusun melalui penerjemahan pakar bahasa, bukan dengan penerjemahan mesin.
Selain itu, data-data yang disusun tersebut juga melalui proses pemeriksaan kembali melalui panduan penerjemahan yang dibarui setiap tahun.
Data yang disusun dari tahun 2021 hingga 2023 sudah dipublikasikan di laman Modu Corpus (kli.korean.go.kr/corpus), sedangkan data yang disusun pada tahun 2024 akan dipublikasikan dalam tahun 2025.
Korpus mampu memperluas teknologi penerjemahan AI. Korpus paralel tersebut sudah digunakan oleh HyperCLOVA X milik Naver dan A. milik SK Telecom sebagai model AI mereka.
Korpus Paralel Bahasa Korea-Bahasa Asing yang disusun sejak tahun 2021 dipublikasikan di laman Modu Corpus. (tangkapan layar laman Modu Corpus)
Park mengungkapkan, "Saat ini jumlah penduduk asing yang tinggal di Korea terus meningkat, tetapi bantuan penerjemahan bahasa asing untuk layanan administrasi dan sejenisnya masih kurang untuk beberapa bahasa tertentu."
"Untuk lebih mengembangkan teknologi penerjemahan dengan mesin, proyek lima tahun yang akan selesai pada tahun ini perlu diperpanjang untuk lima tahun berikutnya," tambah Park.
Park berkata, "Selain itu, untuk lebih meningkatkan kemampuan AI, data yang harus dihimpun ke depannya bukan hanya data teks saja, tetapi juga gambar, suara, bahkan video."
"Kami akan terus mendorong kemampuan kecerdasan buatan Korea berbasis bahasa Korea melalui penyusunan korpus yang lebih bervariasi," tutup Park.
Data Korpus Paralel Bahasa Korea-Bahasa Asing dipublikasikan secara gratis. Siapa pun dapat menggunakan data tersebut untuk penelitian bahasa atau pengembangan mesin penerjemahan dengan mendaftar melalui laman Modu Corpus.
margareth@korea.kr