Robust Principal Component Analysis

Principal Component Analysis (PCA) merupakan salah satu analisis multivariat yang sangat dikenal. PCA mampu mereduksi dimensi data yang besar dan saling berkorelasi menjadi dimensi yang lebih kecil yang tidak saling berkorelasi. Meskipun dimensi data diperkecil, kita tidak kehilangan banyak informasi. Variasi data tetap dipertahankan minimal 80 persen.

Analisis komponen utama (principal component analysis=PCA) merupakan teknik statistik yang telah banyak digunakan. Pembahasan materi ini dapat ditemukan pada buku-buku analisis multivariat baik teori maupun aplikasi. Pemanfaatan PCA utamanya dalam menyusutkan dimensi data yang saling berkorelasi satu sama lain.

Perkembangan PCA dimulai sejak diperkenalkan pertama kali oleh Pearson pada tahun 1901. Sejalan dengan perkembangan teknologi komputer dan kemajuan di bidang matematika, PCA hingga kini masih terus mengalami perkembangan. Perkembangan selanjutnya, diperkenalkan generalisasi dari PCA oleh Loève pada tahun 1963.

Perkembangan PCA selanjutnya dipengaruhi adanya kebutuhan model PCA yang robust
terhadap data pencilan (outlier). PCA klasik (CPCA) sangat dipengaruhi oleh kehadiran pencilan karena CPCA didasarkan pada matrik kovarian yang juga sangat sensitif terhadap keberadaan data pencilan. Untuk mengatasi masalah ini, matrik kovarian diestimasi estimasi kovarian yang robust dengan M-estimator (Devlin, dkk, 1975), Minimum Covariance Determinant (Rousseeuw, 1984), atau S-estimator (Croux dan Haesbroek, 1999). Ketiga metode ini baik jika digunakan untuk kasus jumlah variabel p > jumlah observasi n. Untuk kasus ini, Li dan Chen (1985) memperkenalkan robust PCA dengan Projection Pursuit (PP).

Robust Principal Component Analysis

31 Comments

  1. permisi pak, maaf pak saya selalu bertanya pada bapak mengenai Robust PCA melalui email, tetapi kenapa sekarang tidak bisa ya pak ?

  2. Salam Kenal,,,
    Pak Suryana, PCA apa bisa digunakan dalam data longitudinal yang sifatnya bivariate ataupun multivariate? dan apakah jumlah model yang dihasilkan PCA sesuai dengan jumlah responnya?
    terima kasih.

  3. pak, maaf bisa kirim via email tentang robust PCA lengkap..saya sedang membutuhkan analisis baru dalam penulisan skripsi saya..makasih ya pak.
    oy, klo var X nya ada kualitatif seperti asal daerah (jawa, luar jawa) bisa pake robust PCA?

  4. Pak, gimana caranya menggabung data ke samping dari excel ke matlab, kemudian gimana caranya nampilin output loading faktor dan score di matlab, saya coba koq g bisa2. mohon bantuannya. terima kasih

  5. assalamualaikum…
    pak,jika analisis regresi komponen utama dengan OLS tetapi menggunakan penaksir MCD,bagaimana nanti hasilnya apakah dikatakan residu robust???
    jika dibandingkan analisis regresi komponen utama dengan OLS dan menggunakan penaksir MLE dengan analisis regresi komponen utama dengan OLS tetapi menggunakan penaksir MCD, apakah hasilnya akan menyesatkan?
    mohon di jelaskan, saya masih bingung…
    terima kasih

  6. Salam kenal…
    Nama saya Rian Febrian Umbara. Saya adalah dosen statistika di Institut Teknologi Telkom. Saya sangat tertarik dengan robust PCA yang Bapak bicarakan di atas. Kalau Bapak berkenan, saya ingin membaca paper tentang Penggunaan MCD dalam PCA oleh Hubert (2004). Apakah bapak bersedia mengirimkan copy paper tersebut ke e mail saya? Berikut email saya:
    satrianaga555@yahoo.com. Terima kasih banyak pak.

  7. Pak..
    Boleh minta program matlab libra atau SAS yg buat FAST MCD,karena saat ini sy sdng mengajukan skripsi tentng itu..
    Terima kasih sebelumny.

  8. bapak……….kok lama bgt g dibales2.he2.dikejar deadline pak……….tlg dijelaskan lebih detailnya tentang pengolahan ROBPCA pake matlabnya….yang dipaper bpk kan cuma duikiiit bgt…….masih bingung pak…..
    help……..

  9. Ass,
    pak, ada jurnal atau ebook tentang pendeteksian outlier g??? kl ada saya boleh minta kah??? kl boleh kirim k email saya y pak………
    Terima kasih…………
    oy saya tunggu……..he2

  10. perkenalkan saya anisyah anak matematika ugm yang mendalami statistik…..Saya pernah mencoba paper / jurnal yang bapak pernah rekomendasikan untuk menggunakan toolbox libra untuk metode robpca………pas saya coba koq banyaknya principal components yang muncul cuma max 10…… pa mang gitu yachhhhhh…………tidak bisa diperbanyak kah??????????
    Trima Kasih………….

  11. To: Rizka
    Perbedaan MCD dan Fast MCD: Dalam MCD pencarian sub sampel yang memiliki determinan matrik terkecil dilakukan hingga semua sub sampel. Sebaliknya dalam Fast MCD, pencarian sub sampel dengan determinan matrik terkecil tidak dilakukan pada semua sub sampel, tetapi dengan mengambil beberapa sub sampel tertentu misal 10 sub sampel kemudian dibandingkan. Untuk jelasnya, lihat step-step Fast MCD di jurnal Rousseeu. Terima kasih.

  12. To: Tika
    Sebelum menjawab perbedaan antara Robpca dan analisis faktor, ada baiknya saya menjelaskan perbedaan PCA dengan analisis faktor. Untuk keperluan mereduksi dimensi data lebih tepatnya kita menggunakan PCA. Dengan PCA sejumlah variabel yang saling dependen akan direduksi menjadi sejumlah komponen yang lebih kecil di mana antar komponen tidak saling berkorelasi. Dalam hal ini, komponen merupakan kombinasi linear dari variabel-variabel yang saling dependen.
    Berbeda dengan PCA, analisis faktor mencari faktor tertentu yang membangkitkan variabel. Dari sini jelas bahwa variabel merupakan kombinasi linear dari sejumlah faktor tertentu “common factor” bukan sebaliknya. Dalam praktiknya, PCA digunakan sebagai salah satu metode untuk mencari loading faktor. Jelas bahwa ROBPCA secara konsep merupakan pengembangan dari PCA dengan mengubah metode penaksir kovariansi dari MLE dengan metode penaksir kovariansi yang bersifat robust. Demikian, semoga jawaban saya bisa membantu.

  13. pak bisa ga saya minta jurnal dari Hubert dkk yang judulnya ‘A fast robust method for principal component with applications to chemometrics’

  14. Saya mw nanya pak. Apa bedanya ROPCA ma analisis faktor? Bukankah sama2 mereduksi data? Apa kedua analisis tsb bisa digunakan bersama2? Dlm kasus apa? Tlg jelazin ya pak. Terima kasih sebelumnya

  15. saya pgn nanya pak. pa bedanya analisis faktor ma ROBPCA? bukankah sama-sama mereduksi data? apakah kedua analisis tsb bisa digunakan bersama-sama? dalam kasus pa ja? saya minta penjelasan dari bapak bwt bahan skripsi. terima kasih.

  16. Trims tuk kunjungannya. Salam perkenalan. Robust Principal Component Analysis (RPCA) merupakan pengembangan dari Principal Component Analysis (PCA) klasik. Apa bedanya? Penurunan komponen pada PCA klasik berbasis pada estimasi rata-rata dan kovariansi dengan metode Maximum Likelihood Estimator (MLE). Ada kelemahan penggunaan metode MLE. Pada saat data mengandung sejumlah outlier, sejumlah data yang berasal dari distribusi yang berbeda dengan distribusi data asal, rata-rata dan kovariansinya tidak resisten. Sebagai contoh, Haniaty mempunyai data 1,2,3,4,dan 5. Rata-rata kelima data ini adalah 3. Seandainya data ketiga kita ganti dengan 100 (sebagai contoh outlier) maka rata-rata menjadi 22,4 sangat berbeda dengan rata-rata sebelumnya. Inilah contoh bahwa rata-rata dengan metode MLE tidak resisten terhadap keberadaan data outlier. Sebagai ukuran tingkat resistensi suatu metode terhadap keberadaan outlier digunakan breakdownpoint. Breakdownpoint untuk rata-rata adalah 1, artinya dengan hanya menggantikan 1 nilai ektrim pada data asal maka akan didapati perubahan rata-rata yang sangat besar.
    Untuk mengatasi kelemahan PCA klasik, digunakanlah RPCA yang menggunakan metode estimasi untuk rata-rata dan kovariansi data dengan metode yang resisten terhadap keberadaan outlier. Salah satu metode yang digunakan adalah Minimum Covariance Determinant yaitu suatu metode yang mengestimasi rata-rata dan kovariansi data dengan menggunakan sebagian data yang menghasilkan determinan kovariansi terkecil. Penggunaan MCD dalam PCA telah dikembangkan oleh Hubert (2004). Saya mempunyai jurnalnya, jika Sdr. Haniaty ingin tahu lebih jauh.
    Saya pernah mencoba menerapkan robust PCA pada reduksi data pengeluaran di Provinsi Jawa Tiur Tahun 2002. Hasilnya sangat mengesankan. Untuk mereduksi data dengan mempertahankan variasi data lebih dari 80 persen, PCA klasik membutuhkan minimal 11 komponen dari 21 komponen yang ada sementara RPCA cukup menggunakan 3 komponen saja.
    Terima kasih.

    1. Assalamualaikum pak, salam kenal saya silmi mahasiswa matematika yg sedang menyusun tugas akhir , dan kebetulan mengambil tema perbandingan analisis faktor klasik dan analisis faktor robust dengan estimator MCD, mohon bimbingan dan beberapa referensi pak… Terima kasih wassalam

Leave a comment