Ubuntu komut satırına aşağıda verilen kodu yapıştırınız.
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-ubuntu64.tar.gz
tar -xzf sratoolkit.3.0.0-ubuntu64.tar.gz
fastqc
rnaseq verilerinin kalite kontolünü yapmamızı sağlayan bir pakettir. Bu paket aşağıda verilen komutla indirilir.
conda install fastqc
conda install fastqc -c bioconda -c conda-forge
Veri indirmek için bu linkten SRA veri tabanı açılmalıdır.
İndirmek istenilen verinin ismi yazılararak, çalışmaya uygun olan opsiyonlar seçilmelidir.
Veriyi indirmek için ID’si kopyalanmalıdır.
Kopyalanan ID aşağıda belirtilen fasterq-dump
pakedi ile indirilir.
Örnek değişken:
SRR=ERR3473047
fasterq-dump ${SRR} \
--progress \
--skip-technical \
--split-files \
--outdir data/raw/
İndirilen verinin kalite kontrolü yapılır.
fastqc data/raw/${SRR}_1.fastq data/raw/${SRR}_2.fastq
Cutadapt, istenmeyen dizi türlerini yüksek verimli dizileme okumalarından bulur ve kaldırır. Bunun için öncelikle cutadapt
paketi indirilmelidir.
conda install cutadapt
conda install -c bioconda cutadapt
conda install cutadapt -c bioconda -c conda-forge
Paketi çalıştırmak için aşağıdaki komut kullanılmalıdır. Değişkenler örnekteki gibidir. Yapılan çalışmaya göre parametreler değişkenlik gösterir.
SRR=ERR3473047
ADAPTER1=AGATCGGAAGAG
ADAPTER2=AGATCGGAAGAG
THREADS=4
Q1=20
Q2=20
MIN_LEN=10
cutadapt -q ${Q1} -Q ${Q2} -m ${MIN_LEN} --trim-n -Z -j ${THREADS} -a ${ADAPTER1} -A ${ADAPTER2} -o data/processed/${SRR}_1.fastq.gz -p data/processed/${SRR}_2.fastq.gz data/raw/${SRR}_1.fastq data/raw/${SRR}_2.fastq
Verinin son halini görebilmek için tekrardan kalite kontrol yapılır.
fastqc data/processed/${SRR}_1.fastq.gz data/processed/${SRR}_2.fastq.gz