Sunday, January 27, 2019

#StatDas: Scatter Plot dan Korelasi


Seorang ahli statistik ataupun data analyst pastinya akrab dengan diagram tebar atau scatter plot. Namun bagi orang yang sedang belajar statistik, pastinya bertanya-tanya, apa sih scatter plot itu? Kok disetiap tahap awal melakukan analisis suatu data, selalu saja scatter plot digunakan?

Oke, dalam kesempatan kali ini, kita akan membahas mengenai scatter plot sekaligus dengan partnernya, yaitu korelasi.

Secara ringkasnya, scatter plot merupakan suatu grafik dua dimensi yang terdiri atas kumpulan titik yang berasal dari nilai observasi dua variabel sekaligus yang berguna untuk melihat pola atau hubungan antara kedua variabel tersebut. Jadi, jika ingin membuat scatter plot, kita harus memiliki data dari dua buah variabel yang ingin kita analisis, satu variabel akan berada di sumbu x, dan satunya lagi di sumbu y. Nilai kedua variabel tersebut akan digambarkan sebagai sebuah titik di sebuah grafik dengan sumbu x dan y.

Salah satu fungsi dari scatter plot adalah dapat menunjukkan hubungan antara dua buah variabel. Dalam ilmu statistik, hubungan antara dua buah variabel disebut dengan korelasi.  So, scatter plot dan korelasi adalah dua hal yang tidak terpisahkan. Di mana ada scatter plot, disitu korelasi bisa dilihat.
Apasih sebenarnya korelasi itu sendiri? Intinya, Korelasi merupakan hubungan dari dua variabel. Hubungan kedua variabel tersebut hanya mempunyai tiga kemungkinan, yaitu korelasi positif, korelasi negatif ataupun tidak mempunyai korelasi. Selain itu, yang perlu diperhatikan adalah bentuknya linier atau non linier. Tentunya akan sangat beda perlakuannya antara korelasi linier dengan non linier.

Berikut adalah beberapa pola scatter plot.
 
Sumber : ilmumanajemenindustri.com
Adapun cara membuat scatter plot, bisa anda simak dipostingan berikut Membuat Scatter Plot.

Berbicara tentang korelasi, berikut ini adalah beberapa contoh dikehidupan sehari-hari kita yang biasanya mempunyai hubungan positif, atau dengan kata lain mempunyai korelasi positif.
             1. Lama belajar dengan nilai ujian
             2. Lama bekerja dengan upah yang didapatkan
             3. Tinggi badan dan berat badan.

Ketiga contoh diatas biasanya memiliki korelasi positif, atau dengan kata lain, jika nilai salah satu variabel naik, maka variabel yang satu lagi ikutan naik. Namun ingat, kita belum tau apakah kedua variabel tersebut saling mempengaruhi atau tidak.

Lalu, apa saja contoh yang biasanya mengindikasikan mempunyai korelasi negatif?
       1. Tingkat pendapatan masyarakat dengan tingkat kemiskinan.
       2. Lama sekolah dengan tingkat buta huruf.
       3. Jumlah penjualan minuman keras dengan penderita penyakit liver.

Warning!
Meskipun dua variabel memiliki hubungan atau korelasi yang kuat, hal tersebut belum tentu mengindikasikan adanya hubungan sebab akibat atau saling mempengaruhi antara kedua variabel. Korelasi hanya sebatas memberikan informasi ada atau tidaknya hubungan antara dua variabel, sekaligus bentuk hubungannya, apakah positif, negatif, kuat, atau lemah. Berikut ini adalah contoh kasus dimana dua buah variabel memiliki korelasi yang kuat, namun tidak saling mempengaruhi.

Contoh:
Perusahaan minuman susu UHT di Kabupaten Mamuju mencatatkan jumlah penjualan tertinggi selama tahun 2018. Disaat yang bersamaan, pihak kepolisisan mengumumkan bahwa tindak kejahatan di Kabupaten Mamuju mengalami peningkatan yang cukup tajam selama tahun 2018. Adapun data penjualan susu UHT dan jumlah tindak kejahatan setiap bulan di Kabupaten Mamuju jika dibuatkan scatter plot hasilnya adalah sebagai berikut.




Dari scatter plot di atas, jelas terlihat bahwa adanya korelasi positif yang cukup tinggi antara total penjualan susu UHT dan jumlah kejahatan di Kabupaten Mamuju. Namun, meskipun teridentifikasi adanya korelasi yang kuat antara kedua variabel tersebut, apakah kita bisa menarik kesimpulan, semakin tinggi angka penjualan susu UHT akan menyebabkan semakin tinggi pula angka kejahatan di Kabupaten Mamuju? Absolutely you can’t! Apa hubungannya susu dengan tindak kejahatan. That’s not make sense anymore! Tidak ada sumber referensi yang menyatakan semakin tinggi konsumsi susu akan menyebabkan semakin tinggi pula tingkat tindak kejahatan. Kecuali kalau data jumlah penjualan susu diganti dengan jumlah penjualan minuman keras, maka kita bisa menarik kesimpulan bahwa tingkat penjualan minuman keras sangat mempengaruhi jumlah kejahatan. Seberapa besar pengaruhnya? Itu akan terjawab dengan menggunakan analisis regresi.

Intinya, korelasi hanya sebatas mengidentifikasi hubungan antara kedua variabel saja, tidak lebih! You can’t say “pengaruh” ketika mengintepretasikan hasil dari korelasi. Cukup variabel A dan B memiliki hubungan yang kuat/lemah.

Sekian pembahasan tentang scatter plot dan korelasi. Jika ada pertanyaan silakan tulis di kolom komentar. Terimakasih banyak.


Friday, January 25, 2019

#Belajar-R : Membuat Scatter Plot

Salah satu hal paling penting dalam statistika adalah eksplorasi dan visualisasi data. Oleh karena itu, seorang ahli statistik harus menguasai teknik pengolahan data hingga keteknik penyajiannya yang mudah dimengerti banyak orang.

Pada edisi #Belajar-R kali ini, kita mulai masuk ketahap eksplorasi dan visualisasi data. R memiliki kemampuan yang sangat baik dalam hal tersebut, mulai dari plot, grafik, kurva sederhana hingga advance dapat dihasilkan oleh R.

Dimateri pertama mengenai eksplorasi dan visualisasi data, kita akan membahas mengenai scatter plot. Apa itu scatter plot?

Secara ringkas, scatter plot adalah suatu grafik dua dimensi yang terdiri atas kumpulan titik yang berasal dari nilai observasi dua variabel sekaligus yang berguna untuk melihat pola atau hubungan antara kedua variabel tersebut. Untuk lebih mendalami mengenai scatter plot, anda dapat membacanya di .

Baiklah, mari kita mulai membuat scatter plot dengan R.

Seperti biasa, kita akan menggunakan data dari siswa kelas XII SMA Budikarya. Bagi anda yang belum mempunyai, bisa didownload di sini Download Data.

Untuk membuat scatter plot, kita akan menggunakan fungsi plot.

        >plot(x="nama variabel", y="nama variabel", pch=16, xlab="label sumbu x",
           ylab="label sumbu y", xlim=(skala sumbu x), ylim=(skala sumbu y))

#pch=16 di atas menunjukkan bahwa bentuk plot yang kita inginkan adalah seperti yang nomor 16, yaitu bulat hitam. Untuk bentuk plot selengkapnya bisa dilihat di bawah.

Kepala sekolah Budikarya ingin lebih mengeksplorasi data dari nilai-nilai yang didaparkan kelas 12, khususnya ingun mengetahui apakah ada hubungan antara nilai Matematika dengan nilai Biologi siswa kelas 12. Untuk mempermudah melihat sebarannya, kita dapat membuatkan scatter plot.


Fungsi yang digunakan.


Tampilan Scatter Plot
Dari scatter plot di atas, ada beberapa hal yang kita dapat:
      1. Terdapat satu pencilan nilai Biologi
     2. Nilai Matematika dan Biologi siswa kelas IIX SMA Budiluhur mempunyai sebaran yang   luas.

Ternyata, Bapak Kepala sekolah penasaran dengan nama siswa yang mempunyai nilai Biologi paling rendah tersebut. Untuk mengakomodir keinginan kepala sekolah tersebut, kita dapat memunculkan nama-nama siswa ke dalam scatter plot tersebut dengan memanfaatkan fungsi text yang dipadukan dengan row.names.


#pos=4 di sini berarti kita mengingikan label berada di kanan titik.




Ternyata yang mempunyai nilai Biologi sangat rendah adalah Ela.

Namun, dari scatter plot yang telah kita buat di atas, masih belum memberikan informasi kepada kita bagaimana hubungan antara nilai Biologi dengan nilai Matematika, apakah ada hubungan atau tidak.

Untuk menjawab pertanyaan tersebut, kita dapat memanfaatkan analisis korelasi. Adapun fungsi yang digunakan adalah abline.


Di sini, kita dibebaskan untuk memilih sendiri ketebalan garis dan warnanya. Jika kita menginginkan garis yang tebal, kita tinggal ganti lwd=6, atau berapa terserah anda sekalian. Kita juga bisa memilih warna garis sesuka kita. Tinggak ganti col="blue" jika kita menginginkan garis warna biru.


Dari scatter plot di atas, kita mendapatkan informasi bahwa ada korelasi positif (meskipun sangat kecil) antara nilai matematika dan biologi. Itu artinya, semakin tinggi nilai matematika, biasanya akan dibarengi dengan semakin tinggi pula nilai biologi. Untuk lebih mendalami cara membaca korelasi, anda dapat membacanya di.

Okay, ternyata sudah panjang sekali ya postingan kali ini. Semoga dapat bermanfaat. Jika ada yang perlu ditanyakan silakan, ketik di kolom komentar, ataupun bisa kirim email

NB: "semester" dalam setiap penulisan fungsi di atas adalah nama dari data frame yang saya gunakan.

Sumber Referensi
Pramana, Setia, dkk.2017.Dasar-Dasar Statistika dengan Software R Konsep dan Aplikasi Edisi ke Dua.Bogor.In Media.
Budiharto, Widodo dan Rachmawati, Ro’fah.2013.Pengantar Praktis Pemrogaman R untuk Ilmu Komputer.Jakarta.Halaman Moeka.
Maindonald, J.H.2008.Using R for Data Analysis and Graphics Introduction, Code and Commentary.Australia.Australian National University

Monday, January 21, 2019

#Belajar-R : Mengubah Data Numerik Menjadi Data Kategorik


Hos geldiniz arkadas! Selamat datang di Kelas Statistik.

Pada kesematan kali ini, kita akan melanjutkan untuk menganalisis nilai semester kelas XII SMA Budikarya yang kemarin.  Sekarang kita akan membantu guru Biologi mengetahui nama-nama siswa yang harus mengikuiti ujian perbaikan atau remedial.  Adapun  siswa yang harus mengikuti remedial adalah mereka yang mendapatkan nilai dibawah 70.

Tanpa perlu panjang lebar, mari kita mulai exercise ini. Jika ada yang belum mempunyai data nilai kelas XII SMA Budikarya, silakan download di sini Download Data.

Karena output yang ingin kita dapatkan hanyalah dua, yaitu “lulus” atau “remedial”, fungsi yang akan kita gunakan adalah ifelse.

            Ifelse(test, yes, no)
            test     : kondisi testing
            yes      : nilai ketika kondisi benar
            no       : nilai ketika kondisi salah.

Dalam kasus yang mau kita selesaikan, kita menginginkan adanya keterangan “Lulus” pada siswa yang nilai Biologinya 70 keatas, dan keterangan “remedial” pada siswa yang nilai Biologinya tidak mencapai 70.

>semester$ketBio <- ifelse (semester$Bio < 70, “Remedial”, “Lulus”)



Bagaimana? Gampangkan?
Karena tiga bulan lagi Ujian Nasional, bapak kepala sekolah membuat kebijakan untuk mengadakan les setelah jam sekolah. Rencananya, nanti akan ada empat kelas. Siswa akan dikelompokkan menurut capaian rata-rata nilai dari ketiga mata pelajaran tersebut, yaitu:

       1.      Kelas A :  [76 – 100)
       2.      Kelas B : [67 – 76)
       3.      Kelas C : [58.83 – 67)
       4.      Kelas D : [0 – 58.83)

Untuk dapat membagi siswa menjadi empat kelas seperti yang diinginkan bapak kepala sekolah, kita bisa menggunakan fungsi cut.
Cut(x, breaks, labels = NULL)           : vector/variabel input
Breaks                                                 : vector dari titik potong/cutting point
Labels                                                  : label dari setiap kategori

>semester$KelasLes <- cut(semester$ratarata, breaks=c(0, 58.83, 67, 76, 100), labels=c(“D”, “C”, “B”, “A”))



Kita bisa mengetahui jumlah siswa yang harus remidial Biologi dan jumlah siswa dimasing-masing kelas les dengan memanfaatkan fungsi table.



Dengan memanfaatkan fungsi ifelse dan cut, kita dapat mengubah data numerik menjadi kategorik dengan mudah. Silakan kalian eksplore sendiri fungsi-fungsi tersebut.
Sekian sharing ilumnya untuk kali ini. Jangan lupa untuk membaca postingan-postingan #Belajar-R yang lainnya agar lebih mendalami tentang applikasi R. Terima kasih.

NB: "semester" dalam codingan di atas adalah nama dari data frame yang saya gunakan.

Saturday, January 19, 2019

#Belajar-R: Penerapan Fungsi "rownames"


Ketika kita meng-import data dari excell ataupun yang lainnya, kita selalu dihadapkan pada permasalahan kolom pertama yang seharusnya bukan variabel, namun di R dibaca sebagai sebuah variabel. Kebayang gak? Hehehe. Okay, daripada bingung-bingung, mari langsung saja belajar dari sebuah kasus. Sebelum kita mulai, alangkah lebih baik kalau anda juga ikut mempraktikkannya di komputer/leptop anda agar tidak mudah lupa. Baiklah, langsung saja download datanya di Download Data

Kalau datanya sudah di-donwload, langsung saja di-import ke applikasi R anda. R akan membaca data set “nilai” yang kita import tadi sebagai berikut:
 
Tampilan import data
Kita cek, di data set yang kita import, terdiri dari berapa variabel dengan cara memanfaatkan fungsi dim.
 
Terdapat 71 Observasi dan 5 Variabel dalam data set yang diimport.


Ternyata R membaca data yang kita import tadi terdapat 5 variabel. Padahal sebenarnya cuma terdapat 4 variabel saja, yaitu English, Bio, Math, dan Kelas. Mengapa R membacanya terdapat 5 variabel? Itu karena X, yaitu nama-nama siswa juga dibaca sebagai sebuah variabel.

Dibacanya X (nama siswa) sebagai sebuah variabel tersendiri tentunya akan sangat mengganggu dalam proses analisis kedepannya. Misal ketika kita ingin mengetahui siapa yang memperoleh nilai Math tertinggi.  Kita tidak langsung mengetahui namanya, kita hanya memperoleh nomor urut siswanya. Itu disebabkan karena tidak ada nama baris atau rownames, hanya ada nomor baris saja. Tentunya itu akan sangat merepotkan bukan? Kita harus buka data kita lagi dan mencari siapa yang mempunyai nomor urut 6. Selain itu, terbacanya X (nama siswa) sebagai sebuah variabel tersendiri akan mengganggu kita dalam proses analisis kedepannya.

X ikut-ikutan dianalisis. Padahal tidak perlu.
Selain itu, kita juga tidak bisa langsung mengetahui siapa siswa yang mendapatkan nilai tertinggi di pelajaran Math.

Namanya tidak muncul. Hanya nomor 15 saja.
Dari hasil diatas, kita hanya dapat mengetahui siswa yang mendapatkankan nilai tertinggi di pelajaran Math adalah siswa dengan nomor urut 15. Disitu tidak dicantumkan nama siswanya. Padahalkan lebih enak kalau kita langsung mengetahui siapa nama siswa tersebut.

Maka dari itu, dipostingan kali ini, saya akan menjelaskan cara merubah X (nama siswa) yang semula dibaca sebagai sebuah variabel, menjadi sebuah label, atau nama baris. Bagaimana caranya? Caranya, kita memanfaatkan fungsi rownames.


Rownames telah terbentuk. Tinggal menghapus variabel X.
Bagaimana cara menghapus variabel X? Gampang kok, tinggal ketik :

                  >nama_data_set$variabe_yang_ingin_dihapus <- NULL

                  >semester$X<-NULL

Ingat, tulisan NULL nya harus capslock ya. Kalau pakai huruf kecil dia enggak mau.

Variabel X telah hilang! Yeeey

Mari, kita cek lagi jumlah variabelnya.


Akhirnya, variabelnya tinggal empat, yaitu English, Bio, Math, dan Kelas.

Sekarang, kita menjadi lebih nyaman dalam melakukan analisis, tidak terganggu oleh variabel yang seharusnya tidak menjadi variabel, atau variabel yang tidak penting.

Variabel X nya sudah hilang.

Sekarang, kita juga sudah bisa mengetahui siapa yang mendapatkan nilai tertinggi dimata pelajaran Math.


Akhirmya, sekarang kita langsung bisa mengetahui siapa yang mendapatkan nilai tertinggi di mata pelajaran Math, yaitu Safik.

Sekian sharing ilmunya kali ini, untuk lebih mendalami R, anda bisa baca-baca postingan #Belajar-R yang lain. Terimakasih.

Note: "semester" adalah nama data set yang digunakan selama pembelajaran ini.


Sumber Referensi
Pramana, Setia, dkk.2017.Dasar-Dasar Statistika dengan Software R Konsep dan Aplikasi Edisi ke Dua.Bogor.In Media.
Budiharto, Widodo dan Rachmawati, Ro’fah.2013.Pengantar Praktis Pemrogaman R untuk Ilmu Komputer.Jakarta.Halaman Moeka.
Maindonald, J.H.2008.Using R for Data Analysis and Graphics Introduction, Code and Commentary.Australia.Australian National University

Thursday, January 17, 2019

#StatDas: Hati-Hati dalam Menggunakan Rata-Rata (Mean)


Setidaknya terdapat tiga jenis ukuran pemusatan data, yaitu mean, median, dan modus. Tentunya anda sudah memahami cara menghitung dari masing-masing ukuran pemusatan tersebut. Dipostingan saya kali ini, saya akan memberikan sebuah contoh kasus penggunaan pemusatan data yang cukup menarik.

Sudah akrab ditelinga para akademisi kalau salah satu alat paling ampuh untuk berbohong adalah statistik. Seperti halnya apa yang dikatakan oleh Disraeli, Aeron Levenstein, dan Mark Twain “There are three kinds of lies: lies, damned lies, dan statistics.” Apakah benar statistik itu penuh dengan kebohongan? Jawabannya bisa iya bisa tidak. Pada kasus-kasus tertentu, angka statistik memang bisa menipu jika anda tidak berkemampuan untuk mengetahui tentang statistik itu sendiri. Namun, pada hakekatnya statistik adalah sebuah kebenaran, sebuah gambaran dari realita yang ada. Untuk menghadirkan statistik yang menyajikan kebenaran tentu saja memerlukan sense yang kuat tentang ilmu statistik. Jika sense tentang ilmu statistik lemah, besar kemungkinan kesimpulan-kesimpulan yang dihasilkan akan melenceng dari kenyataan.

Oke, saya beri satu kasus yang menarik:

Bupati Kabupaten Samarantu memberikan tugas kepada asisten ahlinya untuk memberikan laporan tentang kesejahteraan masyarakat kampung Ronggolawe dan Turangga. Disinyalir kedua kampung tesebut merupakan kantong kemiskinan Kabupaten Samarantu. Namun, karena anggaran yang minim, bupati hanya ingin satu kampung saja yang menjadi prioritas pengetasan ditahun ini. Kampung yang satunya akan dientaskan ditahun depan. Sang asisten bupati tadi langsung melakukan survei tentang pendapatan yang dihasilkan masing-masing rumah tangga di kedua kampung tersebut. Adapun hasilnya adalah sebagai berikut.
(Garis kemiskinan Kabupaten Samarantu adalah Rp 800.000)

Dari data yang diperoleh tersebut, sang asaisten bupati tadi mempunyai banyak pilihan cara untuk menganalisis, salah satunya adalah mencari rata-rata (mean).



Yes!!! Akhirnya hasilnya sudah didapat. Dari hasil tersebut, sang asisten bupati berkesimpulan bahwa penduduk kampung Ronggolawe lebih sejahtera dibandingkan kampung Turangga. Oleh karena itu, kebijakan pengetasan kemiskinan sebaiknya dilaksanakan di kampung Turangga karena rata-rata pendapatan kepala rumahtangganya jauh lebih kecil dibandingkan Kampung Roggolawe.

Namun, apakah kesimpulan tersebut tepat? Apakah hasil dari perhitungan rata-rata (mean) tadi menggambarkan keadaan masyarakat kedua kampung tersebut? Mari kita bandingkan dengan hasil dari perhitungan nilai median.

Median Pendapatan KRT Kampung Ronggolawe


Median Pendapatan KRT Kampung Ronggolawe





Sekarang sang asisten bupati sudah mendapatkan dua hasil pemusatan data yaitu mean dan median dari data pendapatan kepala rumah tangga Kampung Ronggolawe dan Turangga. Jika sang asisten bupati tadi hanya mempertimbangkan mean sebagai dasar penarikan kesimpulan, tentunya kesimpulan yang didapatkan akan meleset dari realita yang ada. Meskipun mean dari Kapung Ronggolawe lebih tinggi daripada Kampung Turangga, namun jika kita mempertimbangkan mediannya, dari situ sang asisten bupati akan menemukan fakta bahwa ternyata penduduk miskin di Kampung Ranggalawe lebih banyak dibandingkan Kampung Turangga. Hal tersebut bisa dibuktikan dengan median Kampung Ronggolawe lebih kecil dibandingkan garis kemiskinan. Itu artinya lebih dari setengah penduduk Kampung Ronggolawe hidup dalam kemiskinan. Selain itu, ketimpangan pendapatan di Kampung Ronggolawe juga sangat tinggi.

Sekarang, sang asisten bupati dapat memberikan masukan kepada bupati dengan kesimpulan yang tepat, yaitu kebijakan pengetasan kemiskinan tahun ini sebaiknya dilakukan di Kampung Ronggolawe.

Contoh diatas membuktikan bahwa mean sangat sensitive terhadap data-data ekstrim. Jika dalam sekumpulan data terdapat beberapa data ekstrim, besar kemungkinan nilai rata-rata yang didapatkan kurang mewakili data tersebut. Disisi lain, median tidak terpengaruh dari data-data ekstrim. Oleh karena itu, dengan menghitung median, kita bisa mengetahui pola data, apakah condong ke kanan atau ke kiri. Namun, jika kita Cuma menggunakan median sebagai dasar kesimpulan juga kurang tepat. Kesimpulan yang didapat kurang menjelaskan kondisi yang terjadi di kedua kampung tersebut.
So, inti dari postingan saya kali ini adalah hati-hati dalam membaca data. Meskipun kita telah mengolah data menggunakan metode ilmiah yang telah diakui secara internasional, bisa saja kesimpulan yang kita dapatkan tidak menggambarkan apa yang sebenarnya terjadi.

Kelebihan dari mean:

  • ·       Paling mudah digunakan.
  • ·       Variasi paling stabil.

Kekurangan Mean
  • ·       Sangat sensitive terhadap nilai ekstrim. Jika terdapat beberapa nilai yang terlalu ekstrim, nilai rata-rata menjadi kurang mewakili data tersebut.
  • ·       Tidak dapat digunakan untuk data kualitatif.

Kelebihan Median:
  • ·       Tidak terpengaruh oleh data ekstrim.
  • ·       Dapat digunakan untuk data kualitatif maupun kuantitatif.

Kekurangan Median:
  • ·       Tidak mempertimbangkan semua nilai data.
  • ·       Kutang menggambarkan rata-rata populasi.
SSekian postingan kali ini, silakan cek-cek postingan yang lainnya untuk lebih memperdalam ilmu statistik. Jika ada kesalahan atau pertanyaan silakan email. Terimakasih

Sunday, January 13, 2019

#Belajar-R : Analisis Deskriptif


Salah satu analisis deskriptif yang paling familiar adalah pemusatan data. Ukuran pemusatan atau ukuran lokasi adalah beberapa ukuran yang menyatakan dimana distribusi data tersebut terpusat. Ada tiga metode untuk mengukur pemusatan data, yaitu rata-rata (mean), median, dan modus. Tentunya dari setiap metode tersebut masing-masing mempunyai kelebihan dan kekurangannya. Selengkapnya anda bisa simak di postingan …...

Okay, langsung saja kita praktikkan. Data yang akan kita gunakan dapat diunduh di  Download Data.

Setelah selesai mendownload data, langsung saja buka aplikasi R dan import data tersebut. Cara mengimport file data dapat anda simak di postingan saya #BELAJAR-R : MANAJEMEN DATA.

Data yang telah di import
Data tersebut adalah data nilai Bahasa Inggris, Matematika, dan Biologi dari 71 siswa. Pertama-tama, kita akan menghitung mean, median, dan quantil dari nilai mata pelajaran Bahasa Inggris.

Adapun beberapa fungsi yang akan kita gunakan adalah:

  1. Rata-rata (mean)

           >mean(nama_data_frame$nama_variabel)

      2. Median
          >median(nama_data_frame$nama_variabel)
       
      3. Quantile
         >quantile(nama_data_frame$nama_variabel)

Contoh mencari ukuran pemusatan dengan menggunakan R.


Ingat! nama variabel yang ditulis dalam fungsi harus sama persis dengan nama variabel yang tertera dalam data frame. Jika tidak sama persis (huruf besar kecilnya, ejaannya, dll), maka fungsi tersebut akan gagal mengeluarkan output yang kita inginkan. Saya mencontohkan seperti fungsi ke tiga >quantile(semester$english). Fungsi tersebut tidak mengeluarkan output yang saya inginkan karena ejaan dalam variabelnya salah, yang seharusnya English, disitu malah saya tulis english.

Selanjutnya, jika kita ingin mengetahui nilai tertinggi atau terendah di mata pelajaran Bahasa Inggris, kita bisa menggunakan fungsi max dan min.

        1. >max(nama_data_frame$nama_variabel)
        2. >min(nama_data_frame$nama_variabel)

Selanjutnya, kita juga sekaligus dapat mengetahui siapa yang mempunyai nilai Bahasa Inggris tertinggi melalui fungsi:

        1.  >rownames(nama_data_frame)[which.max(nama_data_frame$nama_variabel] 
        2.  >rownames(nama_data_frame)[which.min(nama_data_frame$nama_variabel] 

Dengan mengembangkan fungsi max-min, kita dapat mengetahui sipa orang yang mempunyai nilai tersebut.

Namun, masih ada kekurangan dengan fungsi which.max. Fungsi ini hanya mengeluarkan output 1 objek saja. Padahal ada beberapa orang yang mendapatkan nilai 97 ataupun 34. Siswa yang ditampilkan oleh which.max adalah siswa yang urutannya paling atas yang mempunyai nilai 97. 

R juga menyediakan fungsi summary yang dapat menampilkan ringkasan analisis deskriptif dari semua variabel.


Kita disajikan sebuah ringkasan analisis deskriptif sederhana dari ke lima variabel yang akan kita teliti, mulai dari nilai minimal, quantil 1, median, rata-rata, kuantil ke 3, dan nilai maksimal. Tentunya tabel tersebut sangat membantu untuk mengetahui gambaran ringkas mengenai variabel-variabel yang kita telitil.

Agar lebih memahami aplikasi R, silakan membaca-baca postingan mengenai #BelajarR di blog ini. Terimakasih.

Daftar Pustaka

Pramana, Setia, dkk.2017.Dasar-Dasar Statistika dengan Software R Konsep dan Aplikasi Edisi ke Dua.Bogor.In Media.
Budiharto, Widodo dan Rachmawati, Ro’fah.2013.Pengantar Praktis Pemrogaman R untuk Ilmu Komputer.Jakarta.Halaman Moeka.
Maindonald, J.H.2008.Using R for Data Analysis and Graphics Introduction, Code and Commentary.Australia.Australian National University



Wednesday, January 9, 2019

#Belajar-R: Mengenal R


R sangat berguna dalam pekerjaan analisa data. Perusahaan-perusahaan besar dunia menggunakan R untuk keperluan analisis data karena R mampu mengadopsi cutting edge technology dan mampu untuk membaur pada sistem lain. Berikut ini adalah beberapa kelebihan dari R:
  • R mempunyai kemampuan membuat grafik yang sangat berkualitas, sama halnya dengan           kemampuan analisisnya.
  • Sistem R berkembang sangat cepat. Fitur-fitur baru muncul setiap beberpa bulan.
  • Gratis

Cara Menginstal R

Software R dapat anda download di http://cran.r-project.org. Setelah masuk di web tersebut, anda akan disuguhkan tiga pilihan software R menurut Operating System (OS). Pilihlah sesuai OS yang kalian pakai, entah itu Linux, Mac OS, ataupun Windows. Selanjutnya anda akan diarahkan ke halaman yang menyajikan link download R beserta berbagai informasi mengenai R.

Halaman Muka http://cran.r-project.org

Setelah terunduh, buka installer-nya dan instal sesuai dengan Operating System PC/leptop anda, apakah 32 bit atau 64 bit. Setelah itu tinggal lanjutkan sesuai perintah yang ada.

Link Download beserta all about R

Berikut adalah tampilan R console yang telah terinstal.
 
Gambar di atas merupakan tampilan R Console.

R Studio

R Studio merupakan suatu Integrated Development Environment (IDE) untuk R. R Studio juga bersifat open source, sehingga bebas diunduh oleh siapapun melewati website berikut : https://www.rstudio.com/product/RStudio/

Beberapa kelebihan R Studio adalah:
  •  Highlight Coding yang memberikan warna yang berbeda untuk kata kunci dan variabel, dan membuat kode yang ditulis lebih mudah dibaca.
  •  Pencocokan tanda kurung (bracket) otomatis.
  • Code Completition, sehingga anda tidak perlu mengetikkan semua perintah secara penuh.
  • Akses mudah ke R help, dengan beberapa fitur bagus untuk menjelajahi fungsi dan parameter fungsi yang ada.
  •  Kemudahan eksplorasi variabel dan nilai-nilai/objek-objek yang dibuat.

Kesimpulannya, R Studio akan mempermudah kita dalam proses coding dan project management. Dengan berbagai kelebihan tersebut, saya sarankan anda untuk menginstal R Studio untuk mempermudah pekerjaan anda.
Jika kita membuka R Studio, maka akan mucul tampilan sebagai berikut:


  • Kiri atas menunjukkan Source. Di sini anda bisa memasukkan beberapa baris kode, kemudian simpan scrip file ke dalam disk, dan melakukan tugas-tugas lain pada script anda. Editor  kode ini bekerja seperti standar RGUI console dengan kelebihan pada Highlight coding, Automatic Bracklet, dan Code Completion.

  • Kiri bawah menunjukkan Console.Console di R Studio sama halnya seperti standar console di R GUI, yaitu tempat di mana kita melakukan semua pekerjaan interaktif dengan R.

  • Pojok kanan atas menunjukkan Workspace dan History. Bagian ini sangat menarik karena kita dapat melihat semua objek serta nilai yang telah dihasilkan dan disimpan dalam Workspace kita. Sedangkan History berguna untuk melihat semua perintah/kode yang telah dijalankan.
  • Pojok kanan bawah terdapat beberapa menu yaitu, File, Plot, Package, dan help.
                 File berfungsi untuk menulusuri folder dan file di komputer.

·                                   Plot berfungsi untuk menampilkan plot (diagram atau grafik) yang dihasilkan.
·                                   Package berfungsi untuk melihat daftar semua package yang telah diinstal.
·                                  Help disini berfungsi untuk menulusuri sitem help 


Sekian materi kali ini. Agar lebih mendalami mengenai R, silakan membaca postingan yang lain di blog ini. Terimakasih.

Daftar Pustaka:
Pramana, Setia, dkk.2017.Dasar-Dasar Statistika dengan Software R Konsep dan Aplikasi Edisi ke Dua.Bogor.In Media.
Budiharto, Widodo dan Rachmawati, Ro’fah.2013.Pengantar Praktis Pemrogaman R untuk Ilmu Komputer.Jakarta.Halaman Moeka.
Maindonald, J.H.2008.Using R for Data Analysis and Graphics Introduction, Code and Commentary.Australia.Australian National University