NBC merupakan salah satu algoritma dalam teknik data
mining yang menerapkan teori Bayes dalam klasifikasi. Teorema keputusan Bayes
adalah pendekatan statistik yang fundamental dalam pengenalan pola (pattern
recoginition). Naive bayes didasarkan pada asumsi penyederhanaan bahwa
nilai atribut secara konditional saling bebas jika diberikan nilai output.
Dengan kata lain, diberikan nilai output, probabilitas mengamati secara
bersama adalah produk dari probabilitas individu. Dengan memasukkan
Persamaan 1 ke Persamaan 2 akan diperoleh pendekatan yang digunakan dalam
NBC.
A. Data
Pada penelitian ini digunakan data sebagai berikut:
1.
Data training dan data testing
Data
ini akan digunakan sebagai proses mining dan pengujian, berupa sampel
data induk dan data akademik mahasiswa angkatan 2005-2009 yang sudah
dinyatakan lulus. Data ini memiliki atribut NIM, jenis kelamin, asal
sekolah, jalur masuk, nilai ujian nasional, gaji orangtua, IP semester
1-4, IPK semester 1-4, dan keterangan lulus.
2.
Data target
Data ini berupa sampel data induk data akademik mahasiswa
angkatan 2010-2011 yang diasumsikan belum lulus. Data ini memiliki atribut NIM,
jenis kelamin, asal sekolah, jalur masuk, nilai ujian nasional, gaji orangtua,
IP semester 1-4, dan IPK semester 1-4. Setelah proses mining, data ini
akan memiliki kelas berdasarkan tabel probabilitas yang diperoleh dari data training.
3.
Data Riwayat Mata Kuliah
Data ini digunakan untuk mengevaluasi data target
ketika diklasifikasikan lulus tidak tepat waktu. Data ini akan dianalisis untuk
memberikan rekomendasi dalam proses perkuliahan berikutnya. Data ini memiliki
atribut NIM, kode matakuliah, dan nilai.
B. Tahapan Penelitian
Pada penelitian ini,
tahapan penelitian yang dilakukan adalah seperti pada Gambar 3. Penelitian ini secara
garis besar meliputi beberapa kegiatan inti yaitu pembuatan proposal,
pengumpulan data, pengolahan data, implementasi NBC, pengujian, dan analisis
hasil. Pada tahap pengolahan ada beberapa kegiatan sesuai dengan tahapan yang
ada pada data mining, yaitu pembersihan data, integrasi data, seleksi data, transformasi
data, dan pembentukan dataset yang dalam penelitian akan digunakan
sebagai data training dan data testing.
C. Desain Sistem
Berikut ini adalah desain
sistem yang digunakan pada penelitian ini:
1. Arsitektur Sistem
Pada bagian komponen sistem
terbagi menjadi empat lingkungan, yaitu basis data, engine, basis pengetahuan,
dan antarmuka pengguna.
2. Pemodelan Sistem
Pada penelitian ini
sistem dimodelkan menggunakan use case diagram untuk memodelkan tingkah
laku (behavior) sistem yang akan dibuat.
3. Algoritma NBC
Langkah-langkah algoritma NBC dapat diuraikan sebagai berikut:
·
1. Baca data
training
· 2. Cari nilai
probabilitasnya dengan cara menghitung jumlah data yang sesuai dari kategori
yang sama dibagi dengan jumlah data pada kategori tersebut.
3. Mendapatkan nilai dalam table
probabilitas
4. Desain Basis Data
Pada desain basis data digambarkan beberapa tabel,
atribut, dan relasinya yang akan digunakan
sebagai penyimpanan data training, data testing, dan
data target pada penelitian ini.
5.
Pembahasan dan Pengujian
A.
Persiapan Data
Pada tahap pengujian ini, data yang akan digunakan sudah
dibersihkan dan ditranformasi-kan dalam bentuk kategori. Dalam pengujian ini
digunakan data sampel mahasiswa angkatan 2005-2009 yang sudah dinyatakan lulus
dari perguruan tinggi. Jumlah data yang digunakan
adalah 100 data dengan
kelas “Tepat” dan “Tidak Tepat” masing-masing berjumlah 33 dan 67.
Dalam proses pengujian,
data dibagi menjadi 2 bagian yaitu data latih dan data uji. Oleh algoritma NBC,
data latih digunakan untuk membentuk table probabilitas, dan data uji digunakan
untuk menguji tabel probabilitas yang telah terbentuk.
B. Pengujian
Pengujian ini betujuan
untuk mengetahui unjuk kerja dari algoritma NBC dalam mengklasifikasikan data
ke dalam kelas yang telah ditentukan. Pada uji coba ini, diberikan data latih
untuk membentuk table probabilitas. Langkah selanjutnya akan diberikan data uji
untuk menguji tabel probabilitas yang sudah terbentuk. Unjuk kerja diperoleh
dengan memberikan nilai pada confusion matrix untuk menghitung nilai precision,
recall, dan accuracy dari hasil pengujian. Berikut hasil pengujian dari
beberapa percobaan:
B.1. Percobaan ke-1
Menggunakan data latih sebanyak 20 data sampel 2005 dengan
data uji sebanyak 20 setdata.
B.2.
Percobaan ke-2
Menggunakan data latih
sebanyak 40 data sampel 2005-2006 dengan data uji sebanyak 20 set data. Tabel 2
adalah perhitungan nilai precision, recall, dan accuracy dengan confusion
matrix untuk percobaan ke-5.
B.3.
Percobaan ke-3
Menggunakan
data latih sebanyak 60 data sampel 2005-2007 dengan data uji sebanyak 20 set
data. Tabel 3 adalah perhitungan nilai precision, recall, dan accuracy
dengan confusion
matrix
untuk percobaan ke-5.
B.4.
Percobaan ke-4
Menggunakan data latih
sebanyak 80 data sampel 2005-2007 dengan data uji sebanyak 20 set data. Tabel 4
adalah perhitungan nilai precision, recall, dan accuracy dengan confusion
matrix untuk
percobaan ke-5.
B.5.
Percobaan ke-5
Menggunakan data latih
sebanyak 100 data sampel 2005-2009 dengan data uji sebanyak 20set data. Tabel 5
adalah perhitungan nilai precision, recall, dan accuracy dengan confusion
matrix untuk
percobaan ke-5.
Selain
pengujian pada data testing, juga akan dilakukan klasifikasi kelulusan pada
data target. Data target berupa sampel mahasiswa angkatan 2010-2011 dan belum
lulus. Data ini belum memiliki kelas seperti pada data latih dan data uji.
6. Pembahasan
Dari hasil pengujian dapat
diketahui nilai precision, recall, dan accuracy untuk setiap percobaan. Perhitungan
rata-rata dari semua percobaan menghasilkan nilai precision, recall, dan
accuracy masing-masing 67%, 44%, dan 60% . Nilai precision tertinggi dari semua
percobaan yaitu 83%, sedangkan nilai precision terendah dari semua percobaan
yaitu 56%. Untuk Nilai recall tertinggi dari semua percobaan yaitu 50%,
sedangkan nilai recall terendah dari semua percobaan yaitu 20%. Nilai accuracy
tertinggi dari semua percobaan yaitu 70%, sedangkan nilai accuracy terendah
dari semua percobaan yaitu 55%.
Secara umum, hasil dari
pengujian menunjukkan nilai akurasi yang sadang, Hal ini disebabkan karena factor
penentu kelulusan mahasiswa tepat atau tidak tepat waktu pada kenyataannya
memiliki nilai yang tidak konsisten. Setelah proses pengujian terhadap data
uji, hasil mining yang terbaik akan digunakan untuk mengklasifikasikan data
target ke dalam kelas “tepat” atau “tidak tepat” waktu kelulusan. Mahasiswa
yang menjadi data target akan dievaluasi data riwayat akademik yang telah
ditempuh dan akan diberikan saran-saran meliputi saran untuk mengulang
matakuliah.
SUMBER :
0 komentar:
Posting Komentar