Rabu, 11 April 2018


NBC merupakan salah satu algoritma dalam teknik data mining yang menerapkan teori Bayes dalam klasifikasi. Teorema keputusan Bayes adalah pendekatan statistik yang fundamental dalam pengenalan pola (pattern recoginition). Naive bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut secara konditional saling bebas jika diberikan nilai output. Dengan kata lain, diberikan nilai output, probabilitas mengamati secara bersama adalah produk dari probabilitas individu. Dengan memasukkan Persamaan 1 ke Persamaan 2 akan diperoleh pendekatan yang digunakan dalam NBC.





A. Data
Pada penelitian ini digunakan data sebagai berikut:
1. Data training dan data testing
Data ini akan digunakan sebagai proses mining dan pengujian, berupa sampel data induk dan data akademik mahasiswa angkatan 2005-2009 yang sudah dinyatakan lulus. Data ini memiliki atribut NIM, jenis kelamin, asal sekolah, jalur masuk, nilai ujian nasional, gaji orangtua, IP semester 1-4, IPK semester 1-4, dan keterangan lulus.

2. Data target
Data ini berupa sampel data induk data akademik mahasiswa angkatan 2010-2011 yang diasumsikan belum lulus. Data ini memiliki atribut NIM, jenis kelamin, asal sekolah, jalur masuk, nilai ujian nasional, gaji orangtua, IP semester 1-4, dan IPK semester 1-4. Setelah proses mining, data ini akan memiliki kelas berdasarkan tabel probabilitas yang diperoleh dari data training.
3. Data Riwayat Mata Kuliah
Data ini digunakan untuk mengevaluasi data target ketika diklasifikasikan lulus tidak tepat waktu. Data ini akan dianalisis untuk memberikan rekomendasi dalam proses perkuliahan berikutnya. Data ini memiliki atribut NIM, kode matakuliah, dan nilai.


B. Tahapan Penelitian
Pada penelitian ini, tahapan penelitian yang dilakukan adalah seperti pada Gambar 3. Penelitian ini secara garis besar meliputi beberapa kegiatan inti yaitu pembuatan proposal, pengumpulan data, pengolahan data, implementasi NBC, pengujian, dan analisis hasil. Pada tahap pengolahan ada beberapa kegiatan sesuai dengan tahapan yang ada pada data mining, yaitu pembersihan data, integrasi data, seleksi data, transformasi data, dan pembentukan dataset yang dalam penelitian akan digunakan sebagai data training dan data testing.


C. Desain Sistem
Berikut ini adalah desain sistem yang digunakan pada penelitian ini:

1. Arsitektur Sistem
Pada bagian komponen sistem terbagi menjadi empat lingkungan, yaitu basis data, engine, basis pengetahuan, dan antarmuka pengguna.


2. Pemodelan Sistem
Pada penelitian ini sistem dimodelkan menggunakan use case diagram untuk memodelkan tingkah laku (behavior) sistem yang akan dibuat.


3. Algoritma NBC

Langkah-langkah algoritma NBC  dapat diuraikan sebagai berikut:
·            1. Baca data training
·        2. Cari nilai probabilitasnya dengan cara menghitung jumlah data yang sesuai dari kategori yang   sama dibagi dengan jumlah data pada kategori tersebut. 
        3. Mendapatkan nilai dalam table probabilitas

 
4. Desain Basis Data
Pada desain basis data digambarkan beberapa tabel, atribut, dan relasinya yang akan digunakan
sebagai penyimpanan data training, data testing, dan data target pada penelitian ini.


5. Pembahasan dan Pengujian

A. Persiapan Data
            Pada tahap pengujian ini, data yang akan digunakan sudah dibersihkan dan ditranformasi-kan dalam bentuk kategori. Dalam pengujian ini digunakan data sampel mahasiswa angkatan 2005-2009 yang sudah dinyatakan lulus dari perguruan tinggi. Jumlah data yang digunakan
adalah 100 data dengan kelas “Tepat” dan “Tidak Tepat” masing-masing berjumlah 33 dan 67.
Dalam proses pengujian, data dibagi menjadi 2 bagian yaitu data latih dan data uji. Oleh algoritma NBC, data latih digunakan untuk membentuk table probabilitas, dan data uji digunakan untuk menguji tabel probabilitas yang telah terbentuk.

B. Pengujian
Pengujian ini betujuan untuk mengetahui unjuk kerja dari algoritma NBC dalam mengklasifikasikan data ke dalam kelas yang telah ditentukan. Pada uji coba ini, diberikan data latih untuk membentuk table probabilitas. Langkah selanjutnya akan diberikan data uji untuk menguji tabel probabilitas yang sudah terbentuk. Unjuk kerja diperoleh dengan memberikan nilai pada confusion matrix untuk menghitung nilai precision, recall, dan accuracy dari hasil pengujian. Berikut hasil pengujian dari beberapa percobaan:
B.1. Percobaan ke-1
Menggunakan data latih sebanyak 20 data sampel 2005 dengan data uji sebanyak 20 setdata.

B.2. Percobaan ke-2
Menggunakan data latih sebanyak 40 data sampel 2005-2006 dengan data uji sebanyak 20 set data. Tabel 2 adalah perhitungan nilai precision, recall, dan accuracy dengan confusion
matrix untuk percobaan ke-5.

B.3. Percobaan ke-3
          Menggunakan data latih sebanyak 60 data sampel 2005-2007 dengan data uji sebanyak 20 set data. Tabel 3 adalah perhitungan nilai precision, recall, dan accuracy dengan confusion
matrix untuk percobaan ke-5.

 

B.4. Percobaan ke-4
Menggunakan data latih sebanyak 80 data sampel 2005-2007 dengan data uji sebanyak 20 set data. Tabel 4 adalah perhitungan nilai precision, recall, dan accuracy dengan confusion
matrix untuk percobaan ke-5.
B.5. Percobaan ke-5
Menggunakan data latih sebanyak 100 data sampel 2005-2009 dengan data uji sebanyak 20set data. Tabel 5 adalah perhitungan nilai precision, recall, dan accuracy dengan confusion
matrix untuk percobaan ke-5.
 


Selain pengujian pada data testing, juga akan dilakukan klasifikasi kelulusan pada data target. Data target berupa sampel mahasiswa angkatan 2010-2011 dan belum lulus. Data ini belum memiliki kelas seperti pada data latih dan data uji.


6. Pembahasan
Dari hasil pengujian dapat diketahui nilai precision, recall, dan accuracy untuk setiap percobaan. Perhitungan rata-rata dari semua percobaan menghasilkan nilai precision, recall, dan accuracy masing-masing 67%, 44%, dan 60% . Nilai precision tertinggi dari semua percobaan yaitu 83%, sedangkan nilai precision terendah dari semua percobaan yaitu 56%. Untuk Nilai recall tertinggi dari semua percobaan yaitu 50%, sedangkan nilai recall terendah dari semua percobaan yaitu 20%. Nilai accuracy tertinggi dari semua percobaan yaitu 70%, sedangkan nilai accuracy terendah dari semua percobaan yaitu 55%.
Secara umum, hasil dari pengujian menunjukkan nilai akurasi yang sadang, Hal ini disebabkan karena factor penentu kelulusan mahasiswa tepat atau tidak tepat waktu pada kenyataannya memiliki nilai yang tidak konsisten. Setelah proses pengujian terhadap data uji, hasil mining yang terbaik akan digunakan untuk mengklasifikasikan data target ke dalam kelas “tepat” atau “tidak tepat” waktu kelulusan. Mahasiswa yang menjadi data target akan dievaluasi data riwayat akademik yang telah ditempuh dan akan diberikan saran-saran meliputi saran untuk mengulang matakuliah.



SUMBER :


 




0 komentar:

Posting Komentar

Comments