Slide 1 dari 22
Halaman Judul
Cover
Presentasi Tesis
Sidang Tesis — Magister Teknik Informatika, BINUS 2026
Analisis Deteksi Malware dengan Metode GGNN dan GCN
I Made Budhi Harta Kusuma — 2502478641
Latar Belakang
Masalah yang Diselesaikan
Konteks ancaman
- Malware berkembang cepat → teknik obfuscation/packing mempersulit deteksi.
- Signature-based cenderung reaktif.
- Kebutuhan deteksi yang lebih robust di level perilaku.
Sumber Data
Kenapa Memory Dump?
Keunggulan memory dump
- Memory dump menyimpan jejak eksekusi yang sering tidak terlihat pada analisis statis.
- Dapat diekstraksi menjadi fitur terstruktur (numerik/kategorikal).
- CIC-MalMem-2022 menyediakan fitur memory dump untuk deteksi malware.
Research Gap
Gap Penelitian
Celah yang ditargetkan
- Banyak metode masih memperlakukan data tabular sebagai sampel independen.
- Padahal ada relasi implisit antar sampel (keluarga/varian).
- GNN bisa memodelkan relasi, tapi data tabular bukan graf asli.
Research Questions
Pertanyaan Penelitian
Rumusan
- Bagaimana membangun graf berbasis sampel dari fitur memory dump?
- Seberapa efektif arsitektur hibrida GGNN→GCN untuk klasifikasi malware?
Contributions
Kontribusi Penelitian
Pilar kontribusi
- Transformasi tabular → graf kNN (sample-level graph).
- Anti-leakage split berbasis grup Raw_Type.
- Evaluasi transductive vs inductive.
- Ablasi arsitektur: baseline vs GGNN-only vs GCN-only.
Data Eksperimen
Dataset (Ringkas dan Tegas)
58.596
sampel
58
kolom total
55
fitur numerik input
2
kelas target
Struktur kolom
Dataset
CIC-MalMem-2022
Non-fitur
Raw_Type, SubType, Label
Target
Label ∈ {Benign, Malware}
Validitas Evaluasi
Validitas: Risiko Data Leakage & Solusinya
Risiko dan solusi
- Random split berisiko varian/artefak sama tersebar lintas subset.
- Group-aware split mencegah performa "terlihat tinggi" karena menghafal varian.
- Basis grup dari Raw_Type + ekstraksi identifier.
Bukti Anti-Leakage
Split Data (Bukti Anti-Leakage)
42.802
Train (73,05%)
4.418
Val (7,54%)
11.376
Test (19,41%)
0
Group overlap
Prinsip Fit-on-Train
Preprocessing (Prinsip Fit-on-Train)
Langkah preprocessing
- inf/−inf → dipetakan ke NaN untuk imputasi konsisten.
- Imputasi median (fit train saja).
- StandardScaler (fit train saja).
- Disusun menjadi x_all (global feature tensor).
Dari Tabular ke Graf
Dari Tabular ke Graf: Definisi Node & Edge
Definisi
- Node = 1 sampel (baris data).
- Edge = koneksi ke k tetangga terdekat berdasarkan kemiripan fitur.
- Graf dibangun data-driven karena tabular bukan graf asli.
Inti Metodologis
Konstruksi kNN Graph (Inti Metodologis)
Implementasi
- edge_index = knn_graph(normalize(x_all), k=K, loop=False)
- Parameter studi: K dan opsi L2 normalization.
2 Mode Evaluasi
Kenapa Perlu 2 Mode: Transductive vs Inductive?
Transductive
- Graf berisi train+val+test, label hanya dipakai untuk node train.
Inductive
- Graf training hanya dari train; test adalah node "baru".
Disiplin Evaluasi pada Graf Global
Masking (Disiplin Evaluasi pada Graf Global)
Pembagian mask
train_mask
Hitung loss dan update bobot
val_mask
Seleksi model terbaik
test_mask
Pelaporan akhir
Mengapa Hybrid?
Arsitektur Model: GGNN→GCN (Mengapa Hybrid?)
Pipeline model
Proyeksi
in_channels → hidden (mis. 128) untuk konsistensi input GGNN
GGNN
Message passing iteratif + gating selektif
GCN
Konsolidasi agregasi dengan degree normalization
Hyperparameter & Training
Konfigurasi Eksperimen
Parameter
Arsitektur
HIDDEN=128, GGNN_LAYERS=3, DROPOUT=0.30
Optimiser
Adam: LR=0.01, WD=5e-4, EPOCHS=50
Model selection
Best checkpoint by weighted F1
Membuktikan Kontribusi Komponen
Ablation: Membuktikan Kontribusi Komponen
Konfigurasi ablasi
- Baseline: GGNN+GCN.
- GGNN-only.
- GCN-only.
- Variasi graf: K dan L2.
Operasional + Threshold-free
Metrik Evaluasi (Operasional + Threshold-free)
Jenis metrik
- Threshold-free: ROC-AUC, PR-AUC.
- Threshold-based: Accuracy, weighted F1, Confusion Matrix.
- Fokus operasional: FN (malware lolos) vs FP (benign dianggap malware).
Baseline K=15, L2=False
Hasil Utama: Baseline (K=15, L2=False)
Transductive
CM
TN=5889, FP=8, FN=20, TP=5459
ROC-AUC
0,999224
PR-AUC
0,998499
Inductive
CM
TN=5890, FP=7, FN=26, TP=5453
ROC-AUC
0,999093
PR-AUC
0,998873
Insight, Bukan Tabel Besar
Ringkasan Ablasi (Insight, bukan tabel besar)
Temuan utama
- Inductive: beberapa konfigurasi terbaik menunjukkan F1_bin ~0.998 dan ROC/PR ~0.999.
Interpretasi
- K mempengaruhi "kaya vs noisy neighborhood".
- L2 mempengaruhi stabilitas kemiripan.
Transparansi Evaluasi
Keterbatasan & Kejujuran Evaluasi
Keterbatasan
- Transductive: node uji ikut berada di graf → interpretasi harus hati-hati.
- Graf kNN adalah relasi "kemiripan fitur", bukan relasi kausal/semantik.
- Potensi penelitian lanjut: graf lebih semantik / multi-view graph.
Closing
Kesimpulan & Kontribusi Praktis
Rangkuman
- Pipeline tabular→graf kNN + anti-leakage split menghasilkan evaluasi yang lebih kredibel.
- Hybrid GGNN→GCN efektif: selektif (gating) + stabil (degree normalization).
- Dua mode evaluasi memberi gambaran lengkap: transductive (konteks graf) dan inductive (lebih dekat deployment).
Shortcuts: ← → Space PgUp PgDn F11
Numbers: 1-9 untuk langsung ke slide