Sunday, January 27, 2019

#StatDas: Scatter Plot dan Korelasi


Seorang ahli statistik ataupun data analyst pastinya akrab dengan diagram tebar atau scatter plot. Namun bagi orang yang sedang belajar statistik, pastinya bertanya-tanya, apa sih scatter plot itu? Kok disetiap tahap awal melakukan analisis suatu data, selalu saja scatter plot digunakan?

Oke, dalam kesempatan kali ini, kita akan membahas mengenai scatter plot sekaligus dengan partnernya, yaitu korelasi.

Secara ringkasnya, scatter plot merupakan suatu grafik dua dimensi yang terdiri atas kumpulan titik yang berasal dari nilai observasi dua variabel sekaligus yang berguna untuk melihat pola atau hubungan antara kedua variabel tersebut. Jadi, jika ingin membuat scatter plot, kita harus memiliki data dari dua buah variabel yang ingin kita analisis, satu variabel akan berada di sumbu x, dan satunya lagi di sumbu y. Nilai kedua variabel tersebut akan digambarkan sebagai sebuah titik di sebuah grafik dengan sumbu x dan y.

Salah satu fungsi dari scatter plot adalah dapat menunjukkan hubungan antara dua buah variabel. Dalam ilmu statistik, hubungan antara dua buah variabel disebut dengan korelasi.  So, scatter plot dan korelasi adalah dua hal yang tidak terpisahkan. Di mana ada scatter plot, disitu korelasi bisa dilihat.
Apasih sebenarnya korelasi itu sendiri? Intinya, Korelasi merupakan hubungan dari dua variabel. Hubungan kedua variabel tersebut hanya mempunyai tiga kemungkinan, yaitu korelasi positif, korelasi negatif ataupun tidak mempunyai korelasi. Selain itu, yang perlu diperhatikan adalah bentuknya linier atau non linier. Tentunya akan sangat beda perlakuannya antara korelasi linier dengan non linier.

Berikut adalah beberapa pola scatter plot.
 
Sumber : ilmumanajemenindustri.com
Adapun cara membuat scatter plot, bisa anda simak dipostingan berikut Membuat Scatter Plot.

Berbicara tentang korelasi, berikut ini adalah beberapa contoh dikehidupan sehari-hari kita yang biasanya mempunyai hubungan positif, atau dengan kata lain mempunyai korelasi positif.
             1. Lama belajar dengan nilai ujian
             2. Lama bekerja dengan upah yang didapatkan
             3. Tinggi badan dan berat badan.

Ketiga contoh diatas biasanya memiliki korelasi positif, atau dengan kata lain, jika nilai salah satu variabel naik, maka variabel yang satu lagi ikutan naik. Namun ingat, kita belum tau apakah kedua variabel tersebut saling mempengaruhi atau tidak.

Lalu, apa saja contoh yang biasanya mengindikasikan mempunyai korelasi negatif?
       1. Tingkat pendapatan masyarakat dengan tingkat kemiskinan.
       2. Lama sekolah dengan tingkat buta huruf.
       3. Jumlah penjualan minuman keras dengan penderita penyakit liver.

Warning!
Meskipun dua variabel memiliki hubungan atau korelasi yang kuat, hal tersebut belum tentu mengindikasikan adanya hubungan sebab akibat atau saling mempengaruhi antara kedua variabel. Korelasi hanya sebatas memberikan informasi ada atau tidaknya hubungan antara dua variabel, sekaligus bentuk hubungannya, apakah positif, negatif, kuat, atau lemah. Berikut ini adalah contoh kasus dimana dua buah variabel memiliki korelasi yang kuat, namun tidak saling mempengaruhi.

Contoh:
Perusahaan minuman susu UHT di Kabupaten Mamuju mencatatkan jumlah penjualan tertinggi selama tahun 2018. Disaat yang bersamaan, pihak kepolisisan mengumumkan bahwa tindak kejahatan di Kabupaten Mamuju mengalami peningkatan yang cukup tajam selama tahun 2018. Adapun data penjualan susu UHT dan jumlah tindak kejahatan setiap bulan di Kabupaten Mamuju jika dibuatkan scatter plot hasilnya adalah sebagai berikut.




Dari scatter plot di atas, jelas terlihat bahwa adanya korelasi positif yang cukup tinggi antara total penjualan susu UHT dan jumlah kejahatan di Kabupaten Mamuju. Namun, meskipun teridentifikasi adanya korelasi yang kuat antara kedua variabel tersebut, apakah kita bisa menarik kesimpulan, semakin tinggi angka penjualan susu UHT akan menyebabkan semakin tinggi pula angka kejahatan di Kabupaten Mamuju? Absolutely you can’t! Apa hubungannya susu dengan tindak kejahatan. That’s not make sense anymore! Tidak ada sumber referensi yang menyatakan semakin tinggi konsumsi susu akan menyebabkan semakin tinggi pula tingkat tindak kejahatan. Kecuali kalau data jumlah penjualan susu diganti dengan jumlah penjualan minuman keras, maka kita bisa menarik kesimpulan bahwa tingkat penjualan minuman keras sangat mempengaruhi jumlah kejahatan. Seberapa besar pengaruhnya? Itu akan terjawab dengan menggunakan analisis regresi.

Intinya, korelasi hanya sebatas mengidentifikasi hubungan antara kedua variabel saja, tidak lebih! You can’t say “pengaruh” ketika mengintepretasikan hasil dari korelasi. Cukup variabel A dan B memiliki hubungan yang kuat/lemah.

Sekian pembahasan tentang scatter plot dan korelasi. Jika ada pertanyaan silakan tulis di kolom komentar. Terimakasih banyak.


0 comments:

Post a Comment