Analisis komponen utama (principal component analysis=PCA) merupakan teknik statistik yang telah banyak digunakan. Pembahasan materi ini dapat ditemukan pada buku-buku analisis multivariat baik teori maupun aplikasi. Pemanfaatan PCA utamanya dalam menyusutkan dimensi data yang saling berkorelasi satu sama lain. Perkembangan

PCA dimulai sejak diperkenalkan pertama kali oleh Pearson pada tahun 1901. Sejalan dengan perkembangan teknologi komputer dan kemajuan di bidang matematika. PCA hingga kini masih terus mengalami perkembangan. Perkembangan selanjutnya, diperkenalkan generalisasi dari PCA oleh Loève pada tahun 1963.

Perkembangan PCA selanjutnya dipengaruhi adanya kebutuhan model PCA yang robust terhadap data pencilan (outlier). PCA klasik (CPCA) sangat dipengaruhi oleh kehadiran pencilan karena CPCA didasarkan pada matrik kovarian yang juga sangat sensitif terhadap keberadaan data pencilan. Untuk mengatasi masalah ini, matrik kovarian diestimasi estimasi kovarian yang robust dengan M-estimator (Devlin, dkk, 1975), Minimum Covariance Determinant (Rousseeuw, 1984), atau S-estimator (Croux dan Haesbroek, 1999). Ketiga metode ini baik jika digunakan untuk kasus jumlah variabel p > jumlah observasi n. Untuk kasus ini, Li dan Chen (1985) memperkenalkan robust PCA dengan Projection Pursuit (PP).

analisis-data-outlier-dgn-robpca-paper.pdf

30 Responses to “Robust Principal Component Analysis”

  1. HANIATY Says:

    setahu saya ga da tu robust PCA.thanks ya da infonya..

  2. Suryana Says:

    Trims tuk kunjungannya. Salam perkenalan. Robust Principal Component Analysis (RPCA) merupakan pengembangan dari Principal Component Analysis (PCA) klasik. Apa bedanya? Penurunan komponen pada PCA klasik berbasis pada estimasi rata-rata dan kovariansi dengan metode Maximum Likelihood Estimator (MLE). Ada kelemahan penggunaan metode MLE. Pada saat data mengandung sejumlah outlier, sejumlah data yang berasal dari distribusi yang berbeda dengan distribusi data asal, rata-rata dan kovariansinya tidak resisten. Sebagai contoh, Haniaty mempunyai data 1,2,3,4,dan 5. Rata-rata kelima data ini adalah 3. Seandainya data ketiga kita ganti dengan 100 (sebagai contoh outlier) maka rata-rata menjadi 22,4 sangat berbeda dengan rata-rata sebelumnya. Inilah contoh bahwa rata-rata dengan metode MLE tidak resisten terhadap keberadaan data outlier. Sebagai ukuran tingkat resistensi suatu metode terhadap keberadaan outlier digunakan breakdownpoint. Breakdownpoint untuk rata-rata adalah 1, artinya dengan hanya menggantikan 1 nilai ektrim pada data asal maka akan didapati perubahan rata-rata yang sangat besar.
    Untuk mengatasi kelemahan PCA klasik, digunakanlah RPCA yang menggunakan metode estimasi untuk rata-rata dan kovariansi data dengan metode yang resisten terhadap keberadaan outlier. Salah satu metode yang digunakan adalah Minimum Covariance Determinant yaitu suatu metode yang mengestimasi rata-rata dan kovariansi data dengan menggunakan sebagian data yang menghasilkan determinan kovariansi terkecil. Penggunaan MCD dalam PCA telah dikembangkan oleh Hubert (2004). Saya mempunyai jurnalnya, jika Sdr. Haniaty ingin tahu lebih jauh.
    Saya pernah mencoba menerapkan robust PCA pada reduksi data pengeluaran di Provinsi Jawa Tiur Tahun 2002. Hasilnya sangat mengesankan. Untuk mereduksi data dengan mempertahankan variasi data lebih dari 80 persen, PCA klasik membutuhkan minimal 11 komponen dari 21 komponen yang ada sementara RPCA cukup menggunakan 3 komponen saja.
    Terima kasih.

  3. ririn Says:

    Salam kenal,saya adlh mhswi statistika Univ.Brawijaya.Saya tertarik dgn paper yg saudara berkaitan dengan ROBPCA terkait dengan pencilan data.Saya terinspirasi dengan paper tersebut, sehingga saya mengambil judul skripsi yang berkaitan dengan ROBPCA terhadap pencilan data.Jika Saudara mempunyai jurnal atau referensi buku yang berkaitan dengan ROBPCA,mohon Saudara berkenan untuk memberikan informasi kepada saya, untuk membantu penyelesaian skripsi saya (ri2n_medy@yahoo.com).Terima kasih.

  4. Suryana Says:

    Salah satu referensi statistik robust bisa Sdri Ririn download di
    wis.kuleuven.be/stat/robust/Papers/robpca.pdf

    Referensi lainnya yang penting adalah:
    http://wis.kuleuven.be/stat/robust/LIBRA.html

    karena memuat program pengolahan robpca oleh Hubert (2004).

    Masih di site yang sama, Sdri dapat menemukan referensi lain mengenai robust statistik.

    Semoga, jawaban ini membantu Sdri.

    Terima kasih.

  5. ririn Says:

    slmt siang…!saya ingin tanya, bagaimana kita tau suatu data multivariat mengandung pencilan metode inferensia/kuantitatif? ?menurut Anda, saya sebaik’y menggunakan metode Stahel Donodo /MCD untk mengts pencilan? saya mencr bk kargn Hubert (2004) d.perpuz UNIBRAW tdk ada,di mn sy bs memprlh bk itu ya?terima kasih

  6. Tiwik Says:

    Salam kenal, P’Sur, saya berminat sekali dg ilmu statistika walaupun background saya dari ekonomi. Baru-baru ini saya dengar istilah Robust PCA (ROBPCA). Katanya utk data yg banyak outlier-nya & sulit untuk di normal-kan … betul ya Pak? Saya ingin tahu, kalau data kita di-robust, apa itu maksudnya data kita itu ditransformasi dg formula semacam z-score, tapi mean diganti dg m-estimator dan std deviasi diganti dengan interquartile range? Aplikasi ROBPCA di SPSS bgm ya? Help me ya Pak, soalnya utk yg spt ini saya betul-betul ‘buta’. Saya sdh coba baca jurnalnya Hubert, Croux, Rouseeuw dll, tapi yg ada saya malah semakin bingung berat, soalnya itu rumusnya cukup asing buat saya. Trims banyak.

  7. suryana Says:

    Jawaban untuk Ririn di Unibraw,

    Untuk mengetahui suatu data multivariat mengandung outlier atau tidak bisa melalui pendekatan jarak robust. Jarak robust merupakan modifikasi dari jarak mahalanobis dengan menggantikan unsur vektor rata-rata dan matrik varians-kovarians (klasik) dengan rata-rata dan matrik varians-kovarians yang menggunakan metode robust seperti MCD. Data multivariat dikatakan outlier jika melebihi jarak robust pada alpha yang ditentukan. Distribusi dari jarak robust mendekati distribusi chi square pada alpha tertentu. Pembahasan mengenai ini bisa mengacu pada tulisan Hubert dkk mengenai Multivariate Robust.

    Sewaktu saya menyusun thesis, Hubert dalam proses penyusunan buku. Adapun Hubert (2004) masih berupa journal. (Journal dan Papernya masih saya cari, kalau sudah ketemu ta kirim ke Sdri Ririn via email).

  8. suryana Says:

    Jawaban Untuk Sdri Tiwik:

    ROBPCA digunakan untuk mereduksi dimensi data dengan Principal Component Analysis dari data yang mengandung sejumlah outlier. Merobust-kan data artinya bisa bermakna menganalisis data dengan tidak menyertakan data outlier. Dalam ROBPCA misalnya, Hubert dkk menggunakan MCD untuk merobustkan rata-rata dan matrik varians-kovarians. Caranya dengan mengambil sebagian data di mana determinant matrik varians-kovarians terkecil. Dengan algoritma FAST-MCD menjadikan pencarian rata-rata dan matrik varians-kovarians dengan metode MCD menjadi cepat dari sisi waktu komputasi.

    Untuk pengolahan ROBPCA bisa menggunakan Matlab ataupun S-Plus. Hubert dkk telah menyusun LIBRA yang merupakan kumpulan source program Matlab untuk penghitungan robust statistik. Toolbox ini bisa diunduh di
    http://wis.kuleuven.be/stat/robust/LIBRA.html

    Jika ada kesulitan pengoperasiannya, bisa menghubungi kembali melalui site

    http://www.statistikaterapan.wordpress.com.

    Terima kasih.

  9. RIRIN Says:

    Selmt malam.Bapak Suryana saya mohon bantuan lagi, saya membutuhkan beberapa data (5 data) yang dapat dianalisis dengan metode ROBPCA, jika Bapak mempunyai beberapa data tersebut, mohon saya diizinkan untuk memakainya sebagai penerapan pada skripsi saya. Saya mencoba menggunakan softwere S-plus6 untuk melakukan analisis tersebut.Terima kasih atas bantuan Bapak sebelumnya, karena hal tersebut sangat membantu saya dalam menyelesaikan skripsi saya.terima kasih.

  10. sri Says:

    selamat pagi pak…saya mau tanya apa ROBPCA ini sudah ada program aplikasi untuk membantu menghitungnya tidak? soalnya saya sedang mencari teori statistik yang bisa saya buat programnya untuk skripsi saya. Terima kasih

    1. Suryana Says:

      Program Aplikasi yang ada adalah Matlab. Itupun dengan menambahkan Toolbox LIBRA dari Hubert. Sri bisa googling. Pasti dapet. Jika tidak, Saya bisa kirimkan via email tanggal 15 Desember 2008. Terima kasih.

  11. ianrambe Says:

    Pagi pak…Pak, tehnik PCA ini katanya hanya bagus untuk data linear. Kalau untuk data non linear lebihj bagus pake tehnik apa ya pak?
    Terimakasih…

  12. rizka Says:

    Ass.
    bisa minta tolong dijelaskan perbedaan antara MCD dan FAST-MCD dari rumusnya

  13. nisya Says:

    perkenalkan saya anisyah anak matematika ugm yang mendalami statistik…..Saya pernah mencoba paper / jurnal yang bapak pernah rekomendasikan untuk menggunakan toolbox libra untuk metode robpca………pas saya coba koq banyaknya principal components yang muncul cuma max 10…… pa mang gitu yachhhhhh…………tidak bisa diperbanyak kah??????????
    Trima Kasih………….

  14. revan Says:

    salam kenal pak surya,saya revan mahasiswa fapet ipb,..saya ingin mempelajari PCA yg aplikasinya untuk bidang peternakan..saya tidak begitu paham dengan statistik..jd dimana(referensi) saya bisa belajar PCA ini sebagai orang awam..mohon bantuannya.
    terimakasi

  15. ajeng Says:

    mau tanya,, apakah sesuai jika saya menggunakan regresi robust untuk meneliti hubungan antara data curah hujan dengan temperatur dan data pasang surut? kalo tidak sesuai, metode apa yang sesuai?
    lalu jika ingin mengetahui distribusinya bagaimana? terimakasih..

    1. Suryana Says:

      Menurut Saya, untuk menetukan model apa yang sesuai untuk pemodelan curah hujan, temperatur dan pasang-surut sebaiknya Ajeng membuat scatterplotnya dulu. Dari langkah ini, jika plotnya menunjukkan pola tertentu semisal linear, kuadratik, atau kubik silakan gunakan analisis regresi (sesuaikan dengan bentuk plotnya). Jika data mengandung pencilan, baru kita gunakan regresi robust. Tetapi, jika plot data tidak berpola, Saya sarankan gunakan regresi nonparametrik. Model akan menyesuaikan bentuk plot data.

      Untuk mengetahui bentuk distribusi data, Ajrng bisa memanfaatkan Minitab. Pada salah satu menu terdapat fungsi untuk mencari bentuk distribusi data. Demikian, semoga bermanfaat.

  16. nelly Says:

    bs jelaskan, pa sich M-Estimator & S-Estimator tu???

    Llu prbedaanny pa diantara kedua estimasi tsb???

    Fungsi kedua estimator tsb pa???

    thx b4

    1. Suryana Says:

      Untuk persamaan antara M dan S estimator, sama-sama digunakan untuk mengestimasi reta-rata dan kovariansi data yang mengandung outlier. Perbedaannya terletak pada tingkat robustnessnya. Seingat saya, S-estimator lebih baik dari sisi breakdownt point dan konvergensinya. Secara teknis perhitungannya, sebaiknya merujuk pada jurnal yang membahas kedua estimator ini.

  17. Ajeng Says:

    ok… terimakasih atas ilmunya..

  18. yudi Says:

    perkenalkan nama saya yudi….saya tertarik dengan regresi robust dan ingin membahas materi ini di skripsi saya..pak surya punya ide ga??

    1. Suryana Says:

      To: Yudi,
      Saran saya, coba Yudi eksplorasi data lebih dulu. Apabila ada sejumlah data outlier dan Yudi ingin meneliti hubungan dua variabel, maka regresi robust bisa digunakan. Tetapi jika, tidak ada data outlier maka regresi biasa cukup Yudi gunakan. Demikian.

  19. ria Says:

    salam kenal, saya ria mahasiswa brawijya. saya sekarang sedang menulis skripsi tentang robust principal component regression (RPCR). yang saya ingin tanyakn. kenapa qta mesti melakukan regresi robust, padahal pencilan sudah tertangani pada PCA robust? alasan mengapa menggunakan regresi komponen utama? knapa tidak menggunakan regresi linier berganda biasa saja. terima kasih.

    1. Suryana Says:

      To Ria…. thanks buat kunjungannya. Saya belum membaca jurnal RPCR. Tetapi sekilas bisa saya jelaskan tujuan masing-masing dari dua metode dalam RPCR. Ada kemungkinan variabel independen dalam model masih saling berkorelasi. Padahal, regresi berganda mensyaratkan tidak ada korelasi di antara variabel independen. Untuk mengatasinya kita gunakan principal component karena dengan principal component variabel independen yang saling berkorelasi bisa direduksi menjadi sejumlah variabel yang saling dependen (bebas).
      Robust statistik bertujuan agar estimasi parameter dari model regresi tidak dipengaruhi oleh sejumlah data yang bersifat pencilan. Dengan Robust Principal Component data-data yang bersifat pencilan tersebut tidak akan disertakan dalam penghitugan estimasi rata-rata dan kovariansi data. Dengan langkah ini diharapkan pemodelan regresi menjadi lebih resisten terhadap data outlier (pencilan). Demikian Ria, kalau tidak keberatan… minta tolong jurnal RPCR dikirimkan ke email suryana@bps.go.id untuk menambah wawasan perstatistika Saya. Terima kasih.

  20. widya Says:

    selamat sore dan salam kenal..
    saya mahasiswi Statistika IPB. saat ini saya sedang mulai menyusun skripsi tentang robust principle component. beruntung sekali saya menemukan situs ini..=)

    1. Suryana Says:

      Selamat bergabung di peminat robust PCA. Jika ada yang akan didiskusikan, jangan sungkan untuk melayangkan diskusi melalui blog ini atau via email. Tks.

  21. eri Says:

    Selamat malam

    Salam kenal, saya eri mahasiswa di Statistika UNPAD. pa, bisa tolong jelaskan alasan mengapa kita harus menggunakan PCA dan Analisis Faktor?
    Lalu mana yang lebih baik digunakan (perbandingannya)bila kita ingin melihat faktor-faktor mana yang lebih berpengaruh..?

    Apa bapa mengetahui web yang menjelaskan perbandingan PCA dan Analisis Faktor

    1. Suryana Says:

      PCA dan Analisis Faktor merupakan dua teknik analisis yang berbeda. PCA mereduksi variabel yang saling berkorelasi dengan membentuk variabel baru yang merupakan kombinasi linear dari variabel yang lama. Sebaliknya, faktor analisis mencari faktor umum (general faktor) yang membangkitkan variabel itu sendiri. Dengan demikian, untuk mencari fator-faktor umum yang medasari suatu variabel sangat cocok jika menggunakan analisis faktor.

  22. Lina Says:

    salam kenal, saya Lina mahasiswi Universitas Mulawarman Samarinda. saya sekarang sedang menulis skripsi tentang Analisis Diskriminan Robust dengan metode MCD(Minimum Covariance Determinant),, Yang saya ingin tanyakan, bisa kah saya meminta penjelasan atau gambaran umum mengenai analisis diskriminan robust dengan metode MCD tersebut????
    Terima kasih.

  23. eno Says:

    selamat malam pak….perkenalkan nama saya seno. saya lg mengerjakan skripsi saya yang berjudul analisis regresi robust dgn metode LMS, yang saya mw txkan metode apa yang trbgus untuk mendeteksi penclan dan apa alasanya? serta metode apa yang bsa saya gunakan untuk mendeteksi pencialn y berpengaruh untuk variabel berganda?selain permsalahn itu saya jg msh sgt kkergan refrensi ttg regresi robust dengan metode LMS??kl ada refrensi bsa tlong krimkan via email??trmksh seblumnya

Leave a Reply