Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 18 dokumen yang sesuai dengan query
cover
Muhammad Okky Ibrohim
"ABSTRAK
Penyebaran ujaran kebencian dan ujaran kasar di media sosial merupakan hal yang harus diidentifikasi secara otomatis untuk mencegah terjadinya konflik masyarakat. Selain itu, ujaran kebencian mempunyai target, golongan, dan tingkat tersendiri yang juga perlu diidentifikasi untuk membantu pihak berwenang dalam memprioritaskan kasus ujaran kebencian yang harus segera ditangani. Tesis ini membahas klasifikasi teks multi label untuk mengidentifikasi ujaran kasar dan ujaran kebencian disertai identifikasi target, golongan, dan tingkatan ujaran kebencian pada Twitter berbahasa Indonesia. Permasalahan ini diselesaikan menggunakan pendekatan machine learning menggunakan algoritma klasifikasi Support Vector Machine (SVM), Naïve Bayes (NB), dan Random Forest Decision Tree (RFDT) dengan metode transformasi data Binary Relevance (BR), Label Power-set (LP), dan Classifier Chains (CC). Jenis fitur yang digunakan antara lain fitur frekuensi term (word n-grams dan character n-grams), fitur ortografi (tanda seru, tanda tanya, huruf besar/kapital, dan huruf kecil), dan fitur leksikon (leksikon sentimen negatif, leksikon sentimen positif, dan leksikon kasar). Hasil eksperimen menunjukkan bahwa secara umum algoritma klasifikasi RFDT dengan metode transformasi LP memberikan akurasi yang terbaik dengan waktu komputasi yang cepat. Algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan fitur word unigram memberikan akurasi sebesar 66,16%. Jika hanya mengidentifikasi ujaran kasar dan ujaran kebencian (tanpa disertai identifikasi target, golongan, dan tingkatan ujaran kebencian), algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan gabungan fitur word unigram, character quadgrams, leksikon sentimen positif, dan leksikon kasar mampu memberikan akurasi sebesar 77,36%.


Hate speech and abusive language spreading on social media needs to be identified automatically to avoid conflict between citizen. Moreover, hate speech has target, criteria, and level that also needs to be identified to help the authority in prioritizing hate speech which must be addressed immediately. This thesis discusses multi-label text classification to identify abusive and hate speech including the target, category, and level of hate speech in Indonesian Twitter. This problem was done using machine learning approach with Support Vector Machine (SVM), Naïve Bayes (NB), and Random Forest Decision Tree (RFDT) classifier and Binary Relevance (BR), Label Power-set (LP), and Classifier Chains (CC) as data transformation method. The features that used are term frequency (word n-grams and character n-grams), ortography (exclamation mark, question mark, uppercase, lowercase), and lexicon features (negative sentiment lexicon, positif sentiment lexicon, and abusive lexicon). The experiment results show that in general RFDT classifier using LP as the transformation method gives the best accuracy with fast computational time. RFDT classifier with LP transformation using word unigram feature give 66.16% of accuracy. If only for identifying abusive language and hate speech (without identifying the target, criteria, and level of hate speech), RFDT classifier with LP transformation using combined fitur word unigram, character quadgrams, positive sentiment lexicon, and abusive lexicon can gives 77,36% of accuracy.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019
T52442
UI - Tesis Membership  Universitas Indonesia Library
cover
Nur Hamid
"

Data LiDAR banyak menggantikan data dua dimensi untuk merepresentasikan data geografis karena kekayaan informasi yang dimilikinya. Salah satu jenis pemrosesan data LiDAR adalah segmentasi semantik tutupan lahan yang mana telah banyak dikembangkan menggunakan pendekatan model deep learning. Algoritma-algoritma tersebut menggunakan representasi jarak Euclidean untuk menyatakan jarak antar poin atau node. Namun, sifat acak dari data LiDAR kurang sesuai jika representasi jarak Euclidean tersebut diterapkan. Untuk mengatasi ketidaksesuaian tersebut, penelitian ini menerapkan representasi jarak non-Euclidean yang secara adaptif diupdate menggunakan nilai kovarian dari set data point cloud. Ide penelitian ini diaplikasikan pada algoritma Dynamic Graph Convolutional Neural Network (DGCNN). Dataset yang digunakan dalam penelitian ini adalah data LiDAR Kupang. Metode pada penelitian ini menghasilkan performa nilai akurasi 75,55%, di mana nilai akurasi ini lebih baik dari algoritma dasar PointNet dengan 65,08% dan DGCNN asli 72,56%. Peningkatan performa yang disebabkan oleh faktor perkalian dengan invers kovarian dari data point cloud dapat meningkatkan kemiripan suatu poin terhadap kelasnya.


LiDAR data widely replaces two-dimensional geographic data representation due to its information resources. One of LiDAR data processing tasks is land cover semantic segmentation which has been developed by deep learning model approaches. These algorithms utilize Euclidean distance representation to express the distance between the points. However, LiDAR data with random properties are not suitable to use this distance representation. To overcome this discprepancy, this study implements a non-Euclidean distance representation which is adaptively updated by applying their covariance values. This research methodology was then implemented in Dynamic Graph Convolutional Neural Network (DGCNN) algorithm. The dataset in this research is Kupang LiDAR. The results obtained performance accuracy value of 75.55%, which is better than the baseline PointNet of 65.08% and Dynamic Graph CNN of 72.56%. This performance improvement is caused by a multiplication of the inverse covariance value of point cloud data, which raised the points similarity to the class.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Eka Puji Widiyanto
"ABSTRAK
Elektrokardiogram (EKG) merupakan mekanisme yang dipergunakan untuk melakukan pemeriksaan kondisi jantung. EKG menghasilkan sinyal listrik yang menggambarkan aktivitas jantung. Penelitian ini akan melakukan pengolahan data EKG yang diambil secara langsung dari pasien sehingga siap untuk ditransmisikan. Untuk mengoptimalkan prosesnya maka data yang dikirimkan dikompresi sedemikian rupa tanpa mendistorsi informasi aslinya. Penelitian sebelumnya mengindikasikan bahwa untuk mencapai rasio kompresi optimal maka sinyal harus disusun sedemikian rupa sehingga menghasilkan regularitas yang tinggi. Akuisisi data dilakukan dengan ADC 24 bit, dilanjutkan penghilangan derau dan ekstraksi beat menggunakan teknik Multi Resolution Wavelet Analysis dengan Lifting Scheme dan normalisasi data. Pengurutan berbasis normalized cross correlation dilakukan sehingga diperoleh data dengan koefisien wavelet yang regularitasnya optimal. Hasil pengujian pada 10 record dari St. Petersburg INCART 12-lead Arrhythmia Database (incartdb) – PhysioNet menunjukkan bahwa penggunaan metode sorting ini dapat menurunkan distorsi sinyal hasil kompresi dengan rerata 3,76% dan perbedaan amplitudo sebesar 0,03mV dibandingkan tanpa sorting pada kompresi sinyal yang tinggi. Simplisitas metode yang dikembangkan memungkinkan implementasi pada platform embedded dengan kapabilitas komputasi yang terbatas.
ABSTRACT
Electrocardiogram (ECG) is common mechanism to monitor heart activity in form of electrical waveform. This research will process ECG signal directly from patient and process it to be ready for transmission. For optimum transmission, signal compression must be done with minimum original information distortion. And to achieve optimum compression rate, high signal regularity is a must. Data acquisition for the system is realized with 24 bit high resolution ADC, continued with noise elimination and beat extraction using Multi Resolution Wavelet Analysis with Lifting Scheme to achieve fast operation cycle. Periode normalization is implemented to the clean signal. Clean normalized signal is sorted using normalized cross correlation method to achieve optimum regularity signal in its wavelet coefficient. Test result on 10 records from St. Petersburg INCART 12-lead Arrhythmia Database (incartdb) – PhysioNet shows that the implemented sorting method can decrease reconstructed signal distortion by mean of 3.76% with amplitude difference of 0.03mV compare to its unsorted form in high compression ratio. The method simplicity offering efficient implementation on embedded system with minimum computation and resources capability."
2013
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Budi Hartadi
"ABSTRAK
Undang-Undang adalah Peraturan Perundang-undangan yang dibentuk oleh Dewan Perwakilan Rakyat dengan persetujuan Presiden. Undang-Undang memiliki sifat mengikat secara umum. Semua ketentuan pada Undang-Undang berlaku untuk seluruh rakyat Indonesia, termasuk ketentuan pidana di dalamnya. Oleh karena itu, setiap warga negara Indonesia perlu memahami informasi sanksi pidana pada Undang-Undang. Melalui penelitian ini, peneliti mengajukan metode untuk mendapatkan informasi pidana dari Undang-Undang. Pendekatan yang dilakukan adalah dengan melakukan klasifikasi tiap pasal, ayat, dan poin huruf pada Undang-Undang. Penelitian ini menggunakan tiga metode klasifikasi, yaitu Support Vector Machine, Classification and Regression Tree, dan Ripple Down Rules Learner. Hasil pengujian menunjukkan bahwa metode Classification and Regression Tree memberikan hasil terbaik, dengan F1-score mencapai 93,3 .

ABSTRACT
Law is a set of provisions and rules formed by People 39 s Representative Council with the agreement of President. Law generally binds every people in Indonesia. In other words, all provisions in Law apply to all people in Indonesia, including the punishment provisions. Because of that, every Indonesian people needs to understand the punishment provisions in Law documents. In this research, we propose a method to get all the punishment provisions from Law text. The approach taken is by doing classification on every articles, verses, and points in Law document. We use three classification methods in this research, which are Support Vector Machine, Classification and Regression Tree, and Ripple Down Rules Learner. Experiment results show that Classification and Regression Tree gives the best results, with F1 score reaching 93,3 ."
Depok: 2018
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Rahmat Rizkiyanto
"Awan merupakan salah satu objek dalam citra satelit penginderaan jauh sensor optis yang keberadaanya sering kali mengganggu proses pengolahan citra penginderaan jauh. Deteksi awan secara akurat merupakan tugas utama dalam banyak aplikasi penginderaan jauh. Oleh karena itu, deteksi awan secara tepat khususnya pada citra satelit optis resolusi sangat tinggi merupakan suatu pekerjaan yang sangat menantang. Penelitian ini bertujuan untuk mendeteksi objek awan pada data citra satelit penginderaan jauh resolusi sangat tinggi. Penelitian ini menggunakan algoritma deep learning yaitu Convolutional Neural Network (CNN) dan segmentasi Simple Linear Iterative Clustering (SLIC) superpixel untuk mendeteksi objek awan pada citra satelit penginderaan jauh. Penelitian ini menggunakan SLIC untuk mengelompokkan citra ke dalam superpiksel. Penelitian ini juga merancang CNN untuk mengekstrak fitur dari citra dan memprediksi superpiksel sebagai salah satu dari dua kelas objek yaitu awan dan bukan awan. Penelitian ini menggunakan data citra satelit resolusi sangat tinggi Pleiades multispectral dengan resolusi 50 cm. Deteksi awan dilakukan dengan berbagai macam skenario. Hasilnya, metode yang diusulkan mampu mendeteksi objek awan dengan performa akurasi sebesar 91.33%.

Clouds are one of the objects in optical sensor remote sensing satellite images whose presence often interferes with the remote sensing image processing process. Accurate cloud detection is a key task in many remote sensing applications. Therefore, precise cloud detection, especially in very high-resolution optical satellite imagery, is a very challenging task. This study aims to detect cloud objects in very high-resolution remote sensing satellite imagery data. This study uses a deep learning algorithm, namely Convolutional Neural Network (CNN) and Simple Linear Iterative Clustering (SLIC) superpixel segmentation to detect cloud objects in remote sensing satellite images. This study uses SLIC to group images into superpixels. This study also designed a CNN to extract features from the image and predict the superpixel as one of two classes of objects, namely cloud, and non-cloud. This study uses very high-resolution Pleiades multispectral satellite imagery data with a resolution of 50 cm. Cloud detection is carried out in various scenarios. As a result, the proposed method can detect cloud objects with an accuracy performance of 91.33%."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Rizki Triyani Pusparini
"Kanker payudara menempati urutan kedua penyebab kematian wanita, pencegahannya dapat dilakukan dengan skrining dini dan meningkatkan kesadaran diri. Obat terapi hormon dengan target kadar estrogen menawarkan perawatan potensial. Namun, penemuan obat konvensional untuk perawatan kanker payudara memerlukan proses yang ekstensif dan mahal. Studi ini menyajikan kerangka kerja untuk menganalisis hubungan Quantitative Structure-Activity Relationship (QSAR) dari inhibitor reseptor estrogen  alfa. Pendekatan kami menggunakan supervised learning, mengintegrasikan informasi self-attention Transformer dan graf molekul untuk memprediksi inhibitor reseptor estrogen alfa. Kami melatih lima model klasifikasi untuk memprediksi inhibitor pada kanker payudara. Di antara semua model, model MATH yang kami usulkan mencapai precision, recall, f1-score, dan specifity yang unggul, dengan nilai masing-masing 0,952, 0,972, 0,960, dan 0,922, beserta dengan ROC-AUC 0,977. MATH menunjukkan kinerja yang kuat, menunjukkan potensi untuk membantu peneliti di bidang farmasi dan kesehatan khususnya dalam mengidentifikasi kandidat senyawa penghambat alfa estrogen dan memandu jalur penemuan obat.

Breast cancer ranks as the second leading cause of death among women, but early screening and self-awareness can help prevent it. Hormone therapy drugs that target estrogen levels offer potential treatments. However, conventional drug discovery entails extensive, costly processes. This study presents a framework for analyzing the quantitative structure-activity relationship (QSAR) of estrogen receptor alpha inhibitors. Our approach utilizes supervised learning, integrating self-attention Transformer and molecular graph information to predict estrogen receptor alpha inhibitors. We establish five classification models for predicting these inhibitors in breast cancer. Among these models, our proposed MATH model achieves remarkable precision, recall, f1-score, and specificity, with values of 0.952, 0.972, 0.960, and 0.922, respectively, alongside a ROC-AUC of 0.977. MATH exhibits robust performance, suggesting its potential to assist pharmaceutical and health researchers in identifying candidate compounds for estrogen alpha inhibitors and guiding drug discovery pathways."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Martin Novela
"Salah satu faktor keberhasilan suatu model pembelajaran dalam machine learning atau deep learning adalah dataset yang digunakan. Pemilihan dataset yang digunakan untuk pelatihan suatu model sangat penting dalam pemrosesan yang dilakukan. Beberapa model deep learning seperti sistem pemrosesan text-to-speech pada model Tacotron2 sangat bergantung dengan dataset yang dipilih. Hal tersebut dikarenakan dalam pelatihan yang dilakukan untuk pembentukan suatu model pada bahasa tertentu harus menggunakan bahasa tersebut agar kualitas dari suara sintesis yang dihasilkan dapat mendekati pelafalan yang seharusnya untuk bahasa yang ditentukan. Pada penelitian ini dilakukan pelatihan yang bertujuan untuk pembentukan model Tacotron2 pada Bahasa Indonesia, sehingga untuk mendapatkan hasil yang lebih baik, maka digunakan dataset berbahasa Indonesia dari rekaman podcast dan talk show. Pada penelitian ini dilakukan dua skenario untuk mendapatkan hasil yang paling optimal. Skenario pertama adalah melakukan pelatihan pada model Tacotron2 menggunakan dataset berbahasa Indonesia yang terdiri dari banyak pembicara. Skenario kedua adalah melakukan pelatihan pada model Tacotron2 menggunakan dataset berbahasa Indonesia yang terdiri dari satu pembicara. Dalam pemrosesan pelatihan untuk pembentukan model Tacotron2 pada Bahasa Indonesia dilakukan dengan menggunakan pre-trained dan hyperparameter berdasarkan penelitian sebelumnya (Shen, et al., 2018). Hasil dari setiap skenario dievaluasi menggunakan Mean Opinion Score (MOS). Kuesioner disebarkan kepada 25 responden untuk menilai kualitas dari suara yang terbentuk berdasarkan kriteria penilaian pada MOS. Suara yang dibentuk oleh model Tacotron2 pada skenario pertama menghasilkan nilai MOS sebesar 4.01. Sedangkan suara yang dibentuk oleh model Tacotron2 pada skenario kedua menghasilkan nilai MOS sebesar 3.78. Hal tersebut menunjukkan bahwa penggunaan dataset berbahasa Indonesia dari rekaman podcast dan talk show dalam pembentukan model Tacotron2 untuk Bahasa Indonesia menghasilkan kualitas yang cukup baik.

One of the success factors of a learning model in machine learning or deep learning is the dataset used. The selection of the dataset used for training a model is very important. Some deep learning models such as the text-to-speech processing system in Tacotron2 are highly dependent on the selected dataset. This is because the training for forming a model in a particular language must use the same language so that the quality of the synthetic sound produced can resemble the proper pronunciation and prosody. In this study, training is aimed to form Tacotron2 model in Bahasa Indonesia. So, to get better results, a dataset in Bahasa Indonesia from recorded podcasts and talk shows are developed. Based on the dataset, two scenarios of training were conducted to obtain the most optimal results. The first scenario is to conduct training on the Tacotron2 model using the dataset consisting of many speakers. The second scenario is to conduct training on the Tacotron2 model the dataset consisting of only one speaker. Both scenarios employed the Tacotron2 model and the hyperparameters used in previous work (Shen, et al., 2018).
The results of each scenario are evaluated using the Mean Opinion Score (MOS). Questionnaires are distributed to 25 respondents to assess the quality of the sound formed based on the MOS assessment criteria. The sound formed by the Tacotron2 model in the first scenario produces an MOS value of 4,012. While the sound formed by the Tacotron2 model in the second scenario produces an MOS value of 3.78. This shows that the use of Indonesian language dataset from recorded podcasts and talk shows in the formation of the Tacotron2 model for Bahasa Indonesia produces a good quality.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Wava Carissa Putri
"Pembuatan dataset emosi wajah membutuhkan sumber daya dan waktu yang banyak. Salah satu solusi menyelesaikan permasalahan ini adalah menggunakan Generative Adversarial Network (GAN) untuk melakukan augmentasi data pada data emosi wajah. Namun, jumlah data yang terbatas membuat GAN belum dapat menghasilkan citra yang beragam. Salah satu pendekatan yang dapat dilakukan untuk mengatasi hal tersebut adalah penggunaan energy function untuk membuat probability function yang lebih detail. Penelitian ini bertujuan untuk merancang sebuah model dengan menggunakan EB-GAN dan attention untuk mengatasi masalah translasi gambar dengan emosi Neutral menjadi gambar dengan emosi dasar. Eksperimen yang dilakukan pada penelitian ini bertujuan untuk melakukan modifikasi terhadap arsitektur DINO dengan menambahkan attention untuk meningkatkan kualitas hasil translasi model. Hasil translasi model dievaluasi menggunakan emotion recognition untuk mengetahui akurasi emosi yang dihasilkan. Pada penelitian ini terlihat bahwa penggunaan attention tidak dapat meningkatkan akurasi DINO dikarenakan terdapat banyaknya fitur pembeda antar emosi yang tersebar pada wajah. Pada penelitian ini DINO pada dataset berwarna menghasilkan akurasi sebesar 96.78% dan DINO pada dataset grayscale menghasilkan akurasi sebesar 94.50%. Dalam pembuatan dataset baru, DINO menghasilkan akurasi sebesar 83% untuk dataset berwarna dan 85.6% untuk dataset grayscale.

Creating a facial emotion dataset requires a lot of resources. To solve this problem, previous research utilizes Generative Adversarial Networks (GANs) to create artificial data. However due to the limited number of available data, this would affect the GANs itself and would result in generating a less diverse data. One way to solve this problem is to use an energy function to create a more detailed probability function. This research aimed to create a model based on EB-GAN and attention to solve problems during translating a neutral image into an image with a basic emotion. This experiment uses a variation of EB-GAN for image translation, DINO, and modify its architecture by adding attention modules to improve the performance of the model during translation. The result of the experiments are evaluated using emotion recognition systems. This results show that the use of attention did not improve the performance of DINO. This is due the fact that each emotion have multiple features and the location of the features are scattered within a face. This experiment shows that DINO obtained the highest accuracy in both colored (RGB) and grayscale data. DINO obtains a 96.78% accuracy for colored (RGB) data and 94.50% for grayscale data. During the creation of new dataset, DINO obtained an accuracy of 83% for colored (RGB) data and 85.6% for grayscale data."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Rian Pramudia Salasa
"Solar filament adalah objek pada kromosfer atau korona matahari yang dapat menjadi indikator terjadinya aktivitas-aktivitas cuaca antariksa (space weather). Aktivitas-aktivitas tersebut dapat menimbulkan efek pada kehidupan di bumi seperti gangguan pada pembangkit listrik, kerusakan pada komponen satelit dan wahana luar angkasa, membahayakan aktivitas manusia di luar angkasa, mengakibatkan gangguan pada sistem berbasis komunikasi radio, dan lain-lain. Deteksi filament merupakan bagian penting dari aktivitas peramalan dan peringatan dini serta riset terhadap cuaca antariksa. Pengamatan filament dilakukan menggunakan teleskop dengan fiter Hydrogen-Alpha (H-Alpha). Hingga saat ini telah teradapat beberapa metode yang dikembangkan untuk melakukan deteksi filament pada citra H-Alpha secara otomatis. Namun metode-metode tersebut masih menggunakan algoritma tradisional yang berbasis intensity thresholding, yang mana sangat bergantung pada banyak langkah preprocessing untuk melakukan binerisasi citra H-Alpha. Penelitian ini memanfaatkan deep learning berbasis CNN yaitu Mask R-CNN untuk melakukan deteksi dan ekstraksi fitur-fitur matahari pada citra H-Alpha secara otomatis dan real-time. Hasil dari deteksi dan ekstraksi fitur ini kemudian disimpan ke dalam basis data hingga dapat digunakan dalam memenuhi kebutuhan data untuk aktivitas riset, peramalan, dan sistem peringatan dini. Citra yang digunakan dalam penelitian adalah citra H-Alpha milik Lembaga Penerbangan dan Antariksa Nasional (LAPAN), yang diambil pada bulan Oktober 2017 – Agustus 2018. Sistem yang dirancang dapat mendeteksi filament dan fitur-fitur matahari lainnya dalam waktu 0.3 detik dengan skor ketelitian hingga 0.95.

Solar filament is an object in the Sun’s chromosphere, in which its appearance used as indicator of Sun’s activites in term of space weather. The Sun’s activities itself affect human life in any ways, such as disturbance on power grids, errors on satellites and spacecrafts, anomalies on radio waves based systems, etc. Thus, solar filament detection is an important task on forecasting, early warning, and other research activities regerding the Sun on solar physics topic. Filament observation carried out using solar telescope equipped with Hydrogen-Alpha (H-Alpha) filter, and captured in an image using a capture device. There are some methods has developed to detect filament on H-Alpha images automatically. Most of them uses traditional algorithm based on intensity thresholding, which is very dependent on many preprocessing steps in the binarizing process. This study utilize CNN based deep learning named Mask R-CNN to perform real-time, automatic detection and ectraction of filaments and other solar features on H-Alpha images. The detection and extraction results then recorded in a database to satisfy data availability on solar activity related tasks. This study uses H-Alpha images obtained from Lembaga Penerbangan dan Antariksa Nasional (LAPAN), captured between October 2017 - August 2018. This study shows that the implemented Mask R-CNN based system detects filament and other solar features in approximately 0.3 seconds with 0.95 precision score."
Depok: Fakultas Ilmu Komputer Universita Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Nur Rachmawati
"Metadata statistik memiliki peran yang sangat penting bagi masyarakat. Dengan adanya metadata statistik, kita dapat mengetahui segala informasi mengenai semua kegiatan statistik yang dilakukan. Pada penelitian ini kami akan membangun sistem Closed Domain Question Answering (CDQA) mengenai metadata statistik (CDQA-Metadata Statistik). Sistem ini dibangun dengan menggunakan metode transfer learning pada data human question dan automatic question. Penggunaan metode transfer learning digunakan karena benchmark yang besar mengenai metadata statistik belum ada sama sekali. Pada penelitian ini kami akan menggunakan arsitektur retriever(BM25)-reader(IndoBERT) berbasis transfer learning. Ada tiga eksperimen utama yang kami lakukan. Hasil eksperimen pertama kami menunjukkan bahwa pada data human question model twostage fine-tuning (human) yang merupakan model dengan metode transfer learning secara statistik sangat signifikan mengguguli model non transfer learning dengan peningkatan exact match sebesar 53 kali lipat dan f1-score sebesar 9 kali lipat. Kemudian pada data automatic question, model two-stage fine-tuning (automatic) yang merupakan model dengan metode transfer learning secara statistik signifikan mengguguli model non transfer learning dengan peningkatan 80 kali lipat untuk exact match dan 13 kali lipat untuk f1-score. Hasil eksperimen kedua kami menujukkan bahwa sistem CDQAMetadata Statistik berbasis transfer learning secara statistik signifikan lebih baik pada data automatic question dibandingkan data human question. Hal ini mungkin disebabkan pada data automatic question memiliki term-of overlap yang lebih banyak dibandingkan data human question. Lalu pada hasil eksperimen ketiga menunjukkan bahwa pada data human question, penambahan data automatic question saat fine-tuning tidak dapat meningkatkan performa CDQA-Metadata Statistik. Begitu juga pada data automatic question, penambahan data human question saat fine-tuning ternyata tidak dapat meningkatkan performa CDQA-Metadata Statistik.

Statistical metadata plays a very important role in society. With statistical metadata, we can find out all the information regarding all statistical activities carried out. In this research we will build a Closed Domain Question Answering system (CDQA) regarding statistical metadata (CDQA-Statistical Metadata). This system was built using the transfer learning method on human question and automatic question data. The use of the transfer learning method is used because large benchmarks regarding statistical metadata do not yet exist. In this research we will use a retriever (BM25)-reader (IndoBERT) architecture based on transfer learning. There were three main experiments we conducted. The results of our first experiment show that in human question data the two-stage fine-tuning (human) model, which is a model using the transfer learning method, is statistically very significantly superior to the non-transfer learning model with an increase in exact match of 53 times and f1-score of 9 times. Then in the automatic question data, the two-stage fine-tuning (automatic) model, which is a model using the transfer learning method, statistically significantly outperforms the non-transfer learning model with an increase of 80 times for exact match and 13 times for f1-score. The results of our second experiment show that CDQA-Metadata Statistik system based on transfer learning significantly as statistics get better performance in automatic question data than in human question data. This is because automatic question data have more term-of overlap than human question data. Then the results of the third experiment show that for human question data, the addition of the automatic question data during fine-tuning cannot improve the performance of CDQA-Metadata Statistics. Likewise for automatic question data, the addition of a human question data during fine-tuning apparently did not improve the performance of CDQA-Metadata Statistics."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2   >>