2  Önemli Konular

R ve RStudio sistemi, şu ana kadar çalıştığınız programlara göre daha dik bir öğrenme eğrisine sahiptir. Yani ilk öğrenme maliyeti çok yüksektir ancak bir kere öğrendiğinizde uzun vadede karlı çıkacağınız bir yetenek kazanmış olacaksınız.

Bu sayfada, önceki yıllarda karşılaşılan önemli sorunları özetlemeye çalıştık. Bu noktalara dikkat ederseniz öğrenme sürecini daha verimli geçirebilirsiniz.

2.1 Karakter kodlama sorunları

Bilgisayarlar geliştirildiği günden beri farklı karakter kodlama sistemleri kullanılmıştır. Hatta farklı işletim sistemleri bile birbirleriyle uyumsuz karakter kodlama sistemleri ile çalışır. Bu yüzden bir bilgisayarda görünen karakter başka bir bilgisayarda düzgün bir şekilde görülmeyebilir.

İlk geliştirilen kodlama sistemlerinden birisi olan ASCII sadece belirli sayıda basılı karakter içerebiliyordu. Dolayısıyla belirli sayıda karakter kullanma imkanımız vardı ve daha çok latince karakterleri destekliyordu.

İlerleyen yıllarda farklı kodlama sistemleri kullanılmaya başlandı ancak ASCII karakter seti her zaman geriye doğru desteklendi. Yani kodlama sistemleri değişse bile ASCII karakterleri aynı kodlarla belirtiliyordu.

Son yıllarda UTF-8 karakter kodlama sistemi yaygın olarak kullanılmaktadır. Bu sistem sayesinde, farklı alfabelerdeki karakterler (mesela Türkçe’ye özgü karakterler) desteklenmeye başlandı.

UTF-8, şu anda yaygın bir kodlama sistemi olsa da, Windows bu kodlama sistemini son yıllarda kullanmaya başladı ve hâlâ bu yüzden sorunlar yaşıyoruz. Önceki yıllarda bu kodlama sorunları yüzünden öğrenci ödevlerini düzgün bir şekilde görüntüleyemedim.

Bu yüzden ders kapsamında yapacağınız kodlamaları sadece ASCII karakter seti üzerinden gerçekleştirin. Aslında çok kolay, aşağıdaki kutucukta bulunan harfler - ve kendi alfabenizdeki İngilizce dışındaki karakterler - YASAK!

Kullanılmaması gereken karakterler

Kodlama yaparken ve dosyaları isimlendirirken aşağıdaki karakterleri kullanmayınız:

Ö, Ç, Ş, İ, Ğ, Ü, Ş, ı, ü, ş, ç, ö 

Eğer sizin kullandığınız yerel dilinizde İngilizce karakter seti dışında karakterler varsa onları da kullanmayın!

2.1.1 RStudio üzerinde karakter kodlaması

Eğer kullandığınız RStudio programında karakter kodlamasının ne olduğunu merak ediyorsanız şu yolu takip ediniz:

  • Önce üstteki menüden Tools (Araçlar) düğmesine tıklayınız.
  • Açılan menüde Global Options (Global ayarlar) düğmesini bulunuz.
  • Açılan sayfada Code tuşuna basınız.
  • Ardından Saving sekmesine tıklayınız.

Bu adımların ardından bir sonraki şekildeki ekran karşınıza çıkmalı. Burada Default text encoding kısmına dikkat ediniz. Eğer UTF-8 yazmıyorsa, Change tuşuna basarak, UTF-8 kodlamasını bulunuz (Şekil 2.1).

Şekil 2.1: RStudio üzerinde UTF-8 kodlamasının seçilmesi

2.2 Dosya ve klasörlerin isimlendirilmesi

Bir diğer önemli nokta ise dosyaların ve klasörlerin isimlendirilmesi. Dosya isimlerinde asla ASCII dışında karakter ve boşluk kullanmayın. Ayrıca büyük küçük harf ayrımmına dikkat edin.

ASCII dışındaki karakterler ve boşluk karakteri, dosya isimlerinin hatalı bir şekilde görünmesine sebep olabilir ve işlerinizi zorlaştırır.

Komut satırı ile çalışan programlarda, boşluk karakteri özel bir anlama gelir. Eğer boşluk karakteri kullanıyorsanız, komut satırı işleyicileri yazdığınız kelimenin bittiğini düşünür ve komutunuz ona göre çalıştırır. Bu da hata yapmanıza sebep olur.

Dosya isimlerine dikkat ediniz

Dosya isimlerini seçerken asla ASCII dışında karakter ve boşluk kullanmayın. Boşluk kullanacağınız zaman - (tire) veya _ (alt çizgi: SHIFT + -) karakterlerini kullanabilirisniz.

Hatalı klasör ve dosya isimleri:

veri analizi/ödev 01.Rmd
Veri analizi/Proje/Ödev (1)(11).Rmd

Güzel bir şekilde yazılmış klasör ve dosya isimleri:

veri-analizi/odev_01.Rmd
Veri_analizi/Proje/Odev_(1).Rmd

2.2.1 Ondalık işareti

Türkiye ve Avrupa’da ondalık ayracı olarak , kulanılmaktadır. Mesela:

14,6

Ancak R programı Amerika sistemini kullanır. Dolayısıyla ondalıklı sayılarla çalışmak istiyorsanız . işareti ile ondalık ayrımını gerçekleştirmeniz gerekir.

Ondalık ayracı farklıdır

Peki kendi hazırladığınız verilerde ondalık ayracı olarak , kullanılmışsa ne olacak? İlerleyen bölümlerde, R içerisine veri yüklerken dec opsiyonu ile ondalık ayracını seçmeyi öğreneceğiz.

2.3 Sonuç

Dikkat etmeniz gereken noktalar:

  • Kodlamaları ASCII karakterleri ile yapalım.
  • Klasör ve dosya isimlerinde yanlızca ASCII karakter kullanalım.
  • Klasör ve dosya isimlerinde boşluk karakteri kullanmayalım.
  • Klasör ve dosya isimlerinde büyük küçük harf ayrımına dikkat edelim.