Tanıtım

Yaşam Bilimlerinde Veri Analizi

Emrah Kırdök, Ph.D.

2023-02-03

Hoşgeldiniz

Ders hakkında bilgi

Ders hakkında bilgi

  • R ve Rstudio programları kullanılacak.

Neden YBVA

Yaşam Bilimlerinde Veri Analizi

  • Yaşam bilimleri alanında hızlı bir gelişme var.
  • Dizileme teknolojileri sayesinde büyük miktarda veri üretildi.
  • Ancak bu veriyi analiz edebilecek insan sayısı kısıtlı.
  • Biz bu noktaya odaklanıyoruz.

Örnek: Dizileme verisi

NCBI dizi okuma arşivindeki veri miktarının artışı

Örnek: Türkiye deprem verisi

  • Sadece biyolojik veri olmasına gerek yok.
  • Artık bir veri dünyasında yaşıyoruz.
  • Mesela Türkiye ve çevresindeki depremleri incelemek ister misiniz?

Örnek: Türkiye deprem verisi

Deprem verisini analiz etmek ister misiniz?

Veri Bilimi

Yeni bir bakış açısı

  • Artan veri miktarı yeni bir bakış açısını gerekli kıldı.
  • Artık veri üzerinde çalışıyoruz.

Kısıt!

  • Ancak bu kadar veriyi analiz edecek insan sayısı az!
  • Geleceğin mesleği (On yıl sonra yerini başka bir geleceğin mesleğine devretmek üzere!)

Neden Veri Bilimi?

Verinin sakladığı gizemler

  • Bilimsel yöntem genelde gözlemden sonuca gider.
  • Ancak artık sonuçtan gözleme gidiyoruz!
  • Ancak özel ekipman kullanmamız gerekli.

Havalı bir meslek!

Chandler Bing’in mesleği

Bilgisayarlar

Bilgisayarlar

  • Adı üstünde bilgi sayar.
  • Temel işi saymak.
  • Sadece sayısal bilgi işleyebilir.
  • Genelde sayılar bir şeyleri temsil eder.

Sayılar neyi temsil eder?

Harfleri:

  • A, B, C, D, E…

Notaları

Sayılar neyi temsil eder?

Kedileri?

Sayılar neyi temsil eder?

Gri tonlama

Sayılar neyi temsil eder?

DNA’yı:

TCTAGCTAGCTAGCTAGCTAGC TAGCTAGCTAGCTAGCTAGCTA GCTAGCTAGTCAGTCGTACGTA GCTAGCTAGCTAGCTAGTCGAT CGATCA

Sayılar neyi temsil eder?

Proteinleri:

QYINQSICIIYYMCTIKFSLWF LPGTKVCRCPVIQYDKFTRGYG LACTEEVATAQRYSRTIVRLWC EPKNRHCRGRDKNEGSLHASMF YQDTCWDDPYRLFKERYRCMPT NAQLTWTYYW

Bilgisayarlar bu verilerle ne yapar?

Veriler bilgisayarlar yardımıyla işlenir.

Bir konumdan başka bir konuma iletilir ve dönüştürülür.

Verilerin uzun süreli depolanmasını sağlar.

Bilgisayarlar

CPU

Bilgisayarın temel bilgi işleme birimidir.

Bütün parçalar arasındaki koordinasyonu sağlamaktan sorumludur.

Bir orkestra şefi gibi

RAM

Rastgele hafıza erişimi (Random Access Memory).

Bilgisayardaki birincil hafıza birimidir. Sadece aktif olarak kullanılan veriler depolanır.

Ancak kısa sürelidir ve kalıcılığı yoktur. Enerji kesildiğinde silinir.

Harddisk

İkincil depolama birimi olarak kullanılır.

Uzun süreli bir depolama sağlar.

Ucuz ancak yavaş bir depolama birimidir.

Dosyalar

Sayıları depoladığımız listeler. Her dosyanın:

  • ismi,
  • oluşturulma tarihi,
  • boyutu,
  • kullanım hakları

bulunur

Dosya isimleri

Bir karakter listesinde:

  • harfler,
  • numaralar,
  • semboller bulunabilir
  • ve 250 karater uzunluğunda olabilir

Aşağıdakiler hariç:

  • Türkçe karakter ve boşluk!
  • **/, :, +, |, <, *, >, ” ve ’ **

Dosya isimleri

Unix/Linux sistemlerde büyük ve küçük harfler farklıdır.

Her dosyanın uzantısı vardır (zorunlu değil ama anlaşılmayı kolaylaştırır):

  • .exe
  • .jpg
  • .doc
  • .txt

Dosya tipleri

Temel olarak iki tip dosya var:

  • Metin dosyaları
    • Sadece düz metin içerirler.
    • Anlaşılabilirdir.
  • İkili dosyalar
    • Sayısal bilginin ikili şekilde düzenlenmiş halidir.
    • Ses, resim dosylaları.

Metni ifade etmek

En basit metin gösterim metodu her bir karakteri tek bir bit ile ifade etmek.

İngilizce için ASCII isimli bir kodlama var.

Sıfır - 127 arasındak her numara bir sembol veya bir sinyal olarak ifade edilir:

  • Yeni satır
  • Tab
  • Boşluk
  • Silme tuşu

ASCII code

30 40 50 60 70 80 90 100 110 120
0 ( 2 < F P Z d n x
1 ) 3 = G Q [ e o y
2 4 > H R \ f p z
3 ! + 5 ? I S ] g q {
4 , 6 @ J T ^ h r |
5 # - 7 A K U i s }
6 $ . 8 B L V ` j t ~
7 % / 9 C M W a k u
8 & 0 : D N X b l v
9 ´ 1 ; E O Y c m w

Non-English languages use numbers between 128 and 255 for symbols like “Ç”, “Ö”, “É”, “Ñ”. (İngilizce dışındaki dillerde “Ç”, “Ö”, “É”, “Ñ” gibi semboller için 128 ile 255 arasındaki sayılar kullanılır)

Metin dosyaları

İkili dosyalar

R ve RStudio

Yeni bir çalışma biçimi

Başlangıçlar hep zor!

O zaman başlayalım!