Slide 1 dari 22 Halaman Judul
Cover Presentasi Tesis
Sidang Tesis — Magister Teknik Informatika, BINUS 2026

Analisis Deteksi Malware dengan Metode GGNN dan GCN

I Made Budhi Harta Kusuma — 2502478641

Latar Belakang

Masalah yang Diselesaikan

Konteks ancaman

  • Malware berkembang cepat → teknik obfuscation/packing mempersulit deteksi.
  • Signature-based cenderung reaktif.
  • Kebutuhan deteksi yang lebih robust di level perilaku.
Sumber Data

Kenapa Memory Dump?

Keunggulan memory dump

  • Memory dump menyimpan jejak eksekusi yang sering tidak terlihat pada analisis statis.
  • Dapat diekstraksi menjadi fitur terstruktur (numerik/kategorikal).
  • CIC-MalMem-2022 menyediakan fitur memory dump untuk deteksi malware.
Research Gap

Gap Penelitian

Celah yang ditargetkan

  • Banyak metode masih memperlakukan data tabular sebagai sampel independen.
  • Padahal ada relasi implisit antar sampel (keluarga/varian).
  • GNN bisa memodelkan relasi, tapi data tabular bukan graf asli.
Research Questions

Pertanyaan Penelitian

Rumusan

  • Bagaimana membangun graf berbasis sampel dari fitur memory dump?
  • Seberapa efektif arsitektur hibrida GGNN→GCN untuk klasifikasi malware?
Contributions

Kontribusi Penelitian

Pilar kontribusi

  • Transformasi tabular → graf kNN (sample-level graph).
  • Anti-leakage split berbasis grup Raw_Type.
  • Evaluasi transductive vs inductive.
  • Ablasi arsitektur: baseline vs GGNN-only vs GCN-only.
Data Eksperimen

Dataset (Ringkas dan Tegas)

58.596 sampel
58 kolom total
55 fitur numerik input
2 kelas target

Struktur kolom

Dataset CIC-MalMem-2022
Non-fitur Raw_Type, SubType, Label
Target Label ∈ {Benign, Malware}
Validitas Evaluasi

Validitas: Risiko Data Leakage & Solusinya

Risiko dan solusi

  • Random split berisiko varian/artefak sama tersebar lintas subset.
  • Group-aware split mencegah performa "terlihat tinggi" karena menghafal varian.
  • Basis grup dari Raw_Type + ekstraksi identifier.
Bukti Anti-Leakage

Split Data (Bukti Anti-Leakage)

42.802 Train (73,05%)
4.418 Val (7,54%)
11.376 Test (19,41%)
0 Group overlap
Prinsip Fit-on-Train

Preprocessing (Prinsip Fit-on-Train)

Langkah preprocessing

  • inf/−inf → dipetakan ke NaN untuk imputasi konsisten.
  • Imputasi median (fit train saja).
  • StandardScaler (fit train saja).
  • Disusun menjadi x_all (global feature tensor).
Dari Tabular ke Graf

Dari Tabular ke Graf: Definisi Node & Edge

Definisi

  • Node = 1 sampel (baris data).
  • Edge = koneksi ke k tetangga terdekat berdasarkan kemiripan fitur.
  • Graf dibangun data-driven karena tabular bukan graf asli.
Inti Metodologis

Konstruksi kNN Graph (Inti Metodologis)

Implementasi

  • edge_index = knn_graph(normalize(x_all), k=K, loop=False)
  • Parameter studi: K dan opsi L2 normalization.
2 Mode Evaluasi

Kenapa Perlu 2 Mode: Transductive vs Inductive?

Transductive

  • Graf berisi train+val+test, label hanya dipakai untuk node train.

Inductive

  • Graf training hanya dari train; test adalah node "baru".
Disiplin Evaluasi pada Graf Global

Masking (Disiplin Evaluasi pada Graf Global)

Pembagian mask

train_mask Hitung loss dan update bobot
val_mask Seleksi model terbaik
test_mask Pelaporan akhir
Mengapa Hybrid?

Arsitektur Model: GGNN→GCN (Mengapa Hybrid?)

Pipeline model

Proyeksi in_channels → hidden (mis. 128) untuk konsistensi input GGNN
GGNN Message passing iteratif + gating selektif
GCN Konsolidasi agregasi dengan degree normalization
Hyperparameter & Training

Konfigurasi Eksperimen

Parameter

Arsitektur HIDDEN=128, GGNN_LAYERS=3, DROPOUT=0.30
Optimiser Adam: LR=0.01, WD=5e-4, EPOCHS=50
Model selection Best checkpoint by weighted F1
Membuktikan Kontribusi Komponen

Ablation: Membuktikan Kontribusi Komponen

Konfigurasi ablasi

  • Baseline: GGNN+GCN.
  • GGNN-only.
  • GCN-only.
  • Variasi graf: K dan L2.
Operasional + Threshold-free

Metrik Evaluasi (Operasional + Threshold-free)

Jenis metrik

  • Threshold-free: ROC-AUC, PR-AUC.
  • Threshold-based: Accuracy, weighted F1, Confusion Matrix.
  • Fokus operasional: FN (malware lolos) vs FP (benign dianggap malware).
Baseline K=15, L2=False

Hasil Utama: Baseline (K=15, L2=False)

Transductive
CM TN=5889, FP=8, FN=20, TP=5459
ROC-AUC 0,999224
PR-AUC 0,998499
Inductive
CM TN=5890, FP=7, FN=26, TP=5453
ROC-AUC 0,999093
PR-AUC 0,998873
Confusion matrix transductive
Transductive
ROC curve transductive
ROC transductive
Confusion matrix inductive
Inductive
Insight, Bukan Tabel Besar

Ringkasan Ablasi (Insight, bukan tabel besar)

Temuan utama

  • Inductive: beberapa konfigurasi terbaik menunjukkan F1_bin ~0.998 dan ROC/PR ~0.999.

Interpretasi

  • K mempengaruhi "kaya vs noisy neighborhood".
  • L2 mempengaruhi stabilitas kemiripan.
Ranking eksperimen
Ranking eksperimen dari dokumen performa
Transparansi Evaluasi

Keterbatasan & Kejujuran Evaluasi

Keterbatasan

  • Transductive: node uji ikut berada di graf → interpretasi harus hati-hati.
  • Graf kNN adalah relasi "kemiripan fitur", bukan relasi kausal/semantik.
  • Potensi penelitian lanjut: graf lebih semantik / multi-view graph.
Closing

Kesimpulan & Kontribusi Praktis

Rangkuman

  • Pipeline tabular→graf kNN + anti-leakage split menghasilkan evaluasi yang lebih kredibel.
  • Hybrid GGNN→GCN efektif: selektif (gating) + stabil (degree normalization).
  • Dua mode evaluasi memberi gambaran lengkap: transductive (konteks graf) dan inductive (lebih dekat deployment).
Shortcuts: ← → Space PgUp PgDn F11
Numbers: 1-9 untuk langsung ke slide