7  R ve Rstudio ile çalışma

Bir önceki kısımda (Bölüm 3), R ile çalışmanın temel adımlarını öğrenmeye başlamıştık. Çalışma sistemimiz şu an için büyük oranda konsol üzerinde devam edecektir. Dolayıyısyla, eksikleriniz var ise, bahsi geçen bölümü tekrar etmeniz iyi olacaktır.

7.1 Değişken atama

Ancak, bu şekilde yaptığınız işlemler genel olarak uzun ömürlü değildir. R üzerinde genel olarak kullandığımız her şeyi bir değişken içerisinde saklarız. Bunun için atama operatörü <- kullanılmaktadır. Bu operatör, aslında okun sağındaki bilgiyi, soldaki değişkenin içerisine atamaktan sorumludur. Örnek olarak aşağıdaki işlemi yapalım:

sayi1 <- 12

Bu işlemin aynısını şu şekilde de yapabiliriz. Önemli olan okun yönü:

12 -> sayi1

Bu işlemin sonucunda 12 değerini, sayi1 değişkeni içerisinde atamış oluyoruz. Artık, 12’yi kullancağımız her yerde sayi1 değişkenini kullanabiliriz.

Bu değişkenleri ise, sağ ekranda bulunan çevre (environment) sekmesinde görebilirsiniz. Artık değişkenimiz, hafıza içerisine alınmış ve tekrar tekrar kullanılmaya hazır bir şekilde beklemektedir.

İsterseniz ikinci bir değişken atayalım:

sayi2 <- 23

Artık ikinci bir değişken elde ettik. Peki bunlarla neler yapabiliriz? Mesela dört işlem gerçekleştirebiliriz:

sayi1 + sayi2
[1] 35

Şu ana kadar sadece sayılarla çalıştık. Ancak R içerisinde daha fazla veri tipi bulunmaktadır. Bu veri tipleri bize farklı değişkenlerle çalışma (karakter, tarih vs) imkanı vererek, farklı alanlarda veri analizi çalışmaları yapmamızı sağlamaktadır.

7.2 Veri tipleri

R içerisinde dört temel veri tipimiz bulunmaktadır:

  • Sayı (numeric, num)
  • Karakter (character, chr)
  • Mantıksal (logical, logi)
  • Kategori/faktör (factor, fac)
  • Kayıp veri (NA)

Bu veri tiplerinin hepsi, farklı veri analizi adımlarında kullanılmaktadır. Dolayısıyla, bu veri tiplerinin düzgün bir şekilde ayarlandığından emin olmalısınız.

Bir verinin tipini öğrenmek istiyorsanız, basit olarak str fonksiyonunu kullanabilirsiniz:

str(12)
 num 12
Not

R üzerindeki fonksiyonlar, belirli işlevleri yerine getiren kod parçaları olarak tanımlanabilir. Her fonskiyonun, parantez içerisine yazılan en az bir tane girdisi bulunmaktadır. Burada kullandığımız str fonksiyonu, parantez içerisinde belirtilen verinin tipini geri döndürmekten sorumludur.

Sayılar dışında neler kullanabiliriz? Karakterleri kullanabiliriz. Ancak karakterle çalışmak istiyorsanız, mutlaka tırnak işareti " kullanmalısınız:

"karakter"
[1] "karakter"

Peki bu karakterin tipine bakalım:

str("karakter")
 chr "karakter"

Şimdi ise başka bir örnek verelim. Bir sayıyı, " işaretleri arasına alırsak ne olur?

str("12")
 chr "12"

Evet, bir sayıyı tırnak işareti içerisine alırsak artık onu karaktere çevirmiş oluruz. Dolayısıyla artık sayı olarak kullanamayız.

Mantıksal değişkenler ise Evet ya da Hayır durumlarını belirleyen operatörler olarak tanımlanabilir. R içerisinde tanımlı olarak gelirler ve dört farklı şekilde ifade edebilirsiniz. Herhangi bir tırnak kullanımına ihtiyaç yoktur:

  • TRUE veya T
  • FALSE veya F

Mesela bir tanesinin tipine bakalım:

str(TRUE)
 logi TRUE
Not

Mantıksal operatörler, R içerisinde ön tanımlı olarak gelmektedir. Dolayısıyla, bu operatörleri oldukları gibi kullanabilme imkanınız bulunmaktadır.

Son olarak kategori ya da faktörleri inceleyelim. Faktör değişkenleri, genel olarak gruplandırma vazifesi görmektedir. Mesela, farklı deney koşullarını faktör olarak gösterebiliriz. Bu sayede, R içerisinde bu koşullara arasındaki değişimleri inceleme imkanımız bulunmaktadır. Faktör oluşturmak için mutlaka bir karaktere ihtiyacımız bulunmaktadır. Bir faktör oluşturmak için, factor fonksiyonunu kullanmalıyız:

factor("karanlik")
[1] karanlik
Levels: karanlik

İsterseniz bir de bu faktörün tipine bakalım:

str(factor("karanlik"))
 Factor w/ 1 level "karanlik": 1

7.2.1 Kayıp veri

Veri analizi çalışmalarında sıklıkla kayıp verilerle uğraşacaksınız. Çünkü deneyler sonucunda her zaman sonuç alamayabilirsiniz. Ancak o deneyi yaptığınız için, bir şekilde veri setinizde bu çıkmayan sonucu belirtmeniz gerekir. Eğer deneyinizin sonucunda çıkmayan bir veri varsa bunu NA karakteri ile belirtebilirsiniz. Bu karakter aslında mantıksal bir değişkendir ve olduğu gibi kullanılmalıdır.

str(NA)
 logi NA

7.3 Veri tipi dönüşümleri

Bir veri tipini, başka bir veri tipine dönüştürme imkanımız bulunmaktadır. Tabii ki belirli kurallar dahilinde bu işlemi gerçekleştirebiliriz.

Elimizde bir sayı olduğunu ve bunu karaktere dönüştüreceğimizi düşünelim:

[1] "12"

Yanlışlıkla karakter haline çevrilmiş bir sayıyı tekrar sayı haline dönüştürelim:

[1] 12

Kullanılabilecek diğer dönüşümler: