gieyoung0226의 등록된 링크

키자드에 등록된 총 182개의 포스트를 확인하실 수 있습니다.

Naver Blog

WES 결과해석

ICGC 확인해보니 아래와 같은 리스트가 나왔고 내가 만든 SC 와 비교해보았다. 일치하는 데이터가 08...

Naver Blog

C-bioportal

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3956037/ cBio Cancer Genomics Portal : 다차원 암...

Naver Blog

CTC data

lung cancer 에 anti EGFR 이 찾아진다면, 이것에 대해 항암제를 쓰겠지, 유전자발현 곧 CTC 를 어...

Naver Blog

trimmomatic

http://www.usadellab.org/cms/?page=trimmomatic 내가 원래 알기론 trimmomatic 에서 phred socre ...

Naver Blog

haplotypecaller 작동원리

용어설명 1. Active region : 변이가 발생하여 non-synomymous of genome 상의 위치 2. Pairwise alignme...

Naver Blog

전치사 (윤문법) on

감사합니다 :) https://www.youtube.com/watch?v=ylmAtLC8oRo 영어공부를 포기했던 이유가 그동...

Naver Blog

전치사 (윤문법) up

https://www.youtube.com/watch?v=y2OhrvIiRmw&t=221s 감사합니다 :) up : 위다 up - ...

Naver Blog

(윤문법) 1~5형식 (미정리)

감사합니다 :) https://www.youtube.com/watch?v=Z9hxGOVRh4U 5형식은 알면 좋을 정도이다. 없...

Naver Blog

haplotypecaller (1) - haplotype

haplotype : haplotypecaller에서 사용하는 haplotype은 사전적 의미가 다르다. 먼저 사전적 의미를 알아보...

Naver Blog

haplotypecaller (2) - active region

gatk 에서 말하는 haplotype이든, active region 이든 사전적 의미등과 다르니 햇갈릴 수 있다. 그러나 gat...

Naver Blog

haplotypecaller (3) - k-mer , De-Bruijn graph(assembly graph)

haplotypecaller 는 NGS의 응용분야에서 정확한 유전자 유형을 쉽게 얻지 못할 수 있으니 불확실성을 가...

Naver Blog

haplotypecaller (4) - pairHMM (미정리)

pairHMM부터는 만들어진 haplotypes은 정확도가 높은 편이니 Active region을 포함하고 있는 segment o...

Naver Blog

haplotypecaller (5) - bayes rule

앞 과정에서 candidate variat site에 대한 read allele likelihoods 을 만들었다. 이제 sample의 각 site...

Naver Blog

(윤문법) 구 와 절

그동안 영문법 공부 와 논문을 보며 이질감을 느꼈던 게 "저 선생님들은 1-5형식이 눈으로 보기만 해...

Naver Blog

A global reference for human genetic variation

모든 인간의 조상이 똑같기에, a number of variants show large frequency differeneces among population...

Naver Blog

(윤문법) 구 와 절(2)

접속사의 종류 등위 접속사 and or but 종속 접속사 that when ~~~~ 등등. 두 접속사의 쓰임은 완전 다르다...

Naver Blog

(CTC) cancer sample sequencing analysis

암은 후천적인 체세포 돌연변이에 의해서 발생하는 질환이다. 이럴 경우에는 돌연변이가 일어난 조직 과 그...

Naver Blog

bcftools (variant calling)

variant calling 결과를 담고 있는 vcf에 대해 알아보자. 특정 유전형의 좌표를 알기 위해서는 좌표위치를 ...

Naver Blog

(윤문법) 준동사 (미정리)

준동사 to R (to부정사) R-ing (동명사 / 현재분사) p.p (과거분사) a 의 ㅔ ㅏ ㅓ 가 똑같은 발음인데 ...

Naver Blog

Heuristic Methods

Dynamic Programming 의 문제점 : dynamic programming은 pairwise 방법으로 N2 process 이다. 그래서 ...

Naver Blog

NGS) - HMM

https://www.youtube.com/watch?v=HB9Nb0odPRs&t=11s paired HMM 에 대한 이해가 ...

Naver Blog

NGS) WES에 사용되는 exome panel의 크기는?

WES에 사용되는 Exome panel을 통해 exon 을 캡쳐한다. 그렇다면 인간의 몸의 exon 의 크기는 얼마나 ...

Naver Blog

samtools(mpileup)

Reference 기준으로 reads이 매핑된 bam file에서 locus 에 매핑된 nucleotides 가 궁금할 때 사용하는 툴...

Naver Blog

NGS) .vcf file 다루기 - 여러명의 정보가 담긴 경우

1. 여러명의 정보를 담은 vcf file 인 경우 한 명의 vcf file은 용량이 크지 않다. 하지만 한 vcf에 여러명...

Naver Blog

igv 사용하기

쉽게 말하면 2가지 방법이 있다. 1) locus 검색 2) gene 검색 1) locus 검색 reference 기준 다른 nt에 대...

Naver Blog

bwa 란 (local alignment, global alignment)

가지고 있는 reads 를 reference sequence 에 mapping 하는 툴 이다. 알고리즘 위주보다 어떤 프로그램인지...

Naver Blog

NGS) Alignment algorithm

Alignment methods 로는 크게 local alignment, global alignment 로 나뉘게 된다. 둘 다 dynamic program...

Naver Blog

Dynamic Programming (동적계획법)

피보나치 수열은 1 1 2 3 5 8 13 . . . f(n) = f(n-2) + f(n-1) , n > 2 f(1) = f(2) &#x3...

Naver Blog

논문분석)Identifying Mendelian disease genes with the Variant Effect Scoring Tool(VEST)

In silico prediction 을 통해 Non-synomymous variant 이 gene에 얼마나 영향을 미치는지 예측하는 tool...

Naver Blog

논문분석)predixcan

GWAS 데이터를 통하여 tissue 별 gene expression을 예측해주는 tool이다. Abstarct : GWAS 는 co...

Naver Blog

GWAS)model association test

plink에는 질병과 variant 간의 association test 하는 방법으로 아래의 5가지 종류가 있다. --assoc --mod...

Naver Blog

Whole genome sequencing 을 이용한 질병 유전학 연구 동향 - Bric 안준용 내용 요약

전장 유전체 해독( Whole exome sequencing) 기술은 차세대 염기서열 분석(NGS)방법을 바탕으로 한 생...

Naver Blog

Regression Linear model 이란(Ridge, Lasso)

회귀(regression)의 경우 선형 모델을 위한 일반화된 예측 함수가 있다. y = wx + b 파라미터 w &#x3...

Naver Blog

NGS) SNV,SNP,allele,haplotype,locus,LD 정리

인간은 23쌍인 46개의 염색체를 가지고 있다. 하나는 아빠에게서, 하나는 엄마에게서 왔다. 그리고 각 아빠...

Naver Blog

Liquid biopsy (액체생검) - ctDNA, CTC, exosome

WES 할 때 CTC 를 사용하였기에 CTC를 알아보고자 글을 쓴다. 액체생검(Liquid biopsy) 액체생검...

Naver Blog

Microbiome)16S rRNA Miseq 원리 및 Amplicon과 library의 차이

Microbiome 의 V4 region을 분석하는 방법에 대해 Miseq 에 관한 논문을 통해 알아보자. 일루미나의 Am...

Naver Blog

(web) PolyPhen-2 및 사용방법

ployphen-2 는 nsSNPs (nonsynonymous SNPs)에 대한 영향 정도를 계산해준다. 예를들어, TSG, On...

Naver Blog

GWAS)하디 웨인버그 평형(HWE) 법칙

대학교에서 1학년 때 가족간의 유전형 분석 문제를 풀기 위해 알아야 하는 하디 바인베르크 평형을 배우면...

Naver Blog

GWAS 란

Genome Wide Association Study Genome wide - 모든 유전체 위치에 대해서 Association Study - 연...

Naver Blog

vcf file 이해하기 - REF, ALT, GT:AD

VCF file 에 대해 알아보자. VCF 에 보면 REF, ALT 라는 자리가 있다. ALT 에 대한 설명을 ...

Naver Blog

annotation)snpEff

Input file : vcf file 형태의 SNP, Indel 을 넣어준다. Output file : snpEff 는 input file의 var...

Naver Blog

annotation)CRAVAT

VEST - Pathogenicity impact CHASM - cancer driver impact AACR - american association f...

Naver Blog

annotation)SNPsnap

Broad Institude 에서 제공해주는 web tool 이다. 1000Genome DB를 사용하여 annotation을 진행해준다...

Naver Blog

annotation)Haploreg

Haploreg 글을 작성 중인 건 2021년이지만 마지막 업데이트는 2015.11.05 version 4.1(GRCh38 ver) 이...

Naver Blog

Axiom)CEL file - DQC(1)

인턴기간동안 Bioinformatics분야에서는 본인이 분석하는 data가 어떤 것인지 명확하게 아는 게 중요하다...

Naver Blog

Annotation)CrossMap (liftover)

오픈데이터를 만지다 보면 hg version이 맞지 않아서 liftover가 필요한 경우가 있다. SNP의 수가 적으...

Naver Blog

GWAS)Bonferroni correction

FDR은 다중비교문제에서 1종 오류를 조절하는 방법이다. 앞에서 유의수준을 0.05 로 잡았을 때, 가정한 ...

Naver Blog

GWAS) plink 는 어떻게 성별을 결정할까?? (1)

NGS 의 발전으로 분석비용이 내려가면서 genotype 의 수가 많아졌으나 해당하는 임상정보들을 분류하는 ...

Naver Blog

GWAS) plink 는 어떻게 성별을 결정할까?? (2)

F-coefficient 값이 남성은 0.8 이상, 여성은 0.2 이상 인 이유에 대해 pseudoautosomal region 을 통해 ...

Naver Blog

GWAS) plink QC pipeline

plink 1.9 version pipeline Input file : ped , map (or bed, bim, fam) 1. binary file 로 만들기 2. Q...

Naver Blog

GWAS)plink annotation

plink QC 후 binary file output 은 bim, bed, fam 이다. 보통 업체에 microarray 로 분석을 의뢰할 경우...

Naver Blog

GWAS) D prime(D') 과 R2 란?

LD에 대해 이전 블로그에서도 정리해두었지만 (LD란 ?) 한번 더 LD의 정의에 대해 위키를 통해 찾아...

Naver Blog

논문분석)AD dementia Criteria

1. Introduction 1.1983년 NINCDS(Neurological and Communicative Disorders and Stroke) 와 ADRDA(Alzhiemer’s Disease and Related Disorders Association) 에서 AD(Alzheimer)criteria 를 만들었으나 임상 징후들과 생물학의 발전으로 이에 대한 수정사항이 필요함. 1) Dementia(치매)에는 여러가지 종류가 있었으나 과거엔 이를 구분하지 못했고 2) MRI, PET imaging, CSF(뇌척수액), AD dementia 와 MCI(인지장애)를 구분할 수 있는 biomarker 들을 통 한 진단이 가능해졌음 3) AD 의 유전적인 정보가 부족했었음(Early-onset, Inherited AD) 4) 과거엔 40세 미만에서 AD dementia가 발병해도 나이가 많은 경우의 환자와 pathophysiology(.......

Naver Blog

논문분석)GWAS imputation - Introduction

Microarray chip을 통한 분석은 50-100만개 (Korean Chip의 경우 83만개) 의 SNP(=marker)의 genotype을 확인할 수 있다. 100만개 정도의 SNP로 association study를 진행하기엔 인간의 유전자가 너무 길어서 실제 GWAS 분석에는 marker의 수를 늘릴 필요가 있다. 이러한 makrer의 수를 늘리는 방법이 바로 Imputation 이다. 오늘 쓰고자 하는 논문은 imputation tools중 하나인 beagle 에 대한 논문인데 현재 내가 GWAS Imputation시에 사용하는 Tools이 beagle 이기에 imputation에 대해 제대로 공부할 겸 겸사겸사 읽어보았다. Introduction : Imputation시 주형이 되는 refernece panel size는 크기가 커질수록 accurately imputed 된 v.......

Naver Blog

NGS정리)한국인칩(Koreanchip)

Microarray chip GWAS 분석이나 RNA 발현량을 확인하기 위해 사용된다. (Microarray chip에 대한 원리 및 자세한 설명은 정리가 되는대로 기록하고자 함) 그러나 기존에 상용유전체칩(illumina chip 등)은 서양인 중심으로 제작되었다. 한국인의 유전체를 서양인 중심인 Chip으로 분석하는 경우 크게 나타나는 문제를 설명하면 한 사람의 전체 유전자는 30억 base pair 를 갖고 있으나 Chip 에 30억개를 모두 담을 수 없다. 그렇기에 Chip에 존재하는 probe는 30억개 중에서 특이하거나 중요한 SNP를 probe를 설정해야 하는데 allele 의 Frequency가 모든 사람에게서 또는 각 나라 사람들에서 비슷한 SNP 보다 MAF 가 낮은 SNP들을 통해 probe로.......

Naver Blog

NGS tools 작동원리)OTV(off-target variant)

Microarray Chip에 GWAS분석을 맡기게 되면 CEL file과 library file, annotation file을 받을 수 있다. 이를 통해 plink등에서 사용할 수 있는 data형태로 만들 수 있다. CEL file을 확인하다 보면 아래처럼 SNP 별 cluster 를 확인해볼 수 있다. conversion type을 확인해보면 OTV (Off-Target Variant)라고 나오는 경우가 있을 것이다. 말 그대로 내가 생각했던 Target variant 가 아니라고 하는 것인데 좀 더 직관적인 형태를 본다면 이러한 형태를 확인할 수 있다. Chip의 probe에 따라 OTV는 위처럼 나오지 않을 수도 있지만 위처럼 OTV라고 나오는 경우가 있고 원인으로는 여러가지가 있겠지만 OTV model을 통해 이를 확인하게 된다.

Naver Blog

국내 코로나19 분석결과 공유

인턴 중인 회사에서 코로나 바이러스와 백신과의 관계 및 현재 신규 변이 바이러스를 분석하고 기사를 쓸 일이 있었다. 기사를 쓰기 위해 KOBIC에서 코로나 바이러스 데이터를 받아 분석한 돌연변이 형태와 계통도 분석 결과를 공유드리고자 한다. Structural and functional properties of SARS-CoV-2 spikeprotein: potential antivirus drug development for COVID-19 이라는 네이처에 기재된 논문을 참조하여 신규 변이들이 Spike protein과 관계가 있음을 확인하였고 S protein을 포커스로 하여 분석을 진행했다. 분석을 위해 사용한 코로나 바이러스는 KOBIC 을 통해 공급받았다./ 먼저 S protein에 대해 설명을 하자면 코로나19 의 경우 S.......

Naver Blog

gatk)GetPileupSummaries - error

bam file 을 만들 때 input으로 chr1~chrM 까지만 넣어줬었는데 이렇게 진행한 경우 interval 이 중요하다는 걸 알았다. 이후 gnomad 데이터를 사용할텐데 이때 chr1~chrM 외 의 정보가 있다면 에러가 생기기에 interval에서 사용할 부분만 넣어주면 된다.

Naver Blog

WES) Mutect2 force calling mode -bam file

reference에 alignment된 bam file의 크기가 12G 라고 가정해보자. realignment 된 bam file을 얻고싶어서 realignment tools을 사용하여 나오는 bam file의 크기는 600M 으로 약 1/20 이 줄어든다. * realignment tools 로 Mutect2 force calling mode 사용 (mutect2 force calling mode 추가옵션 : -L -active-probability-threshold 0.001 --max-reads-per-alignment-start 0 --min-base-quality-scrore 10 --pair-hmm-implementation FAST_AVAILABLE ) 이를 통해 알 수 있는건 mutect2의 원리가 seed(K-mer) 에서의 정보만 찾다보니 realignment 된 raw.bam 에 비해 많은 정보가 생략되었다는 것인데 gatk 에서 확인해보니 mutect에서 output.......

Naver Blog

haplotypecaller (6) - result

mutect2와 haplotype의 기본적인 원리는 같기에 seed(K-mer)가 더 많은 mutect2를 통해 raw_alignment.bam 과 re_alignment.bam 의 차이를 알아보고자 한다. reference에 alignment된 bam file의 크기가 12G 라고 가정해보자. realignment 된 bam file을 얻고싶어서 realignment tools을 사용하여 나오는 bam file의 크기는 600M 으로 약 1/20 이 줄어든다. * realignment tools 로 Mutect2 force calling mode 사용, (mutect2 force calling mode 추가옵션 : -L --force-active ture -active-probability-threshold 0.001 --max-reads-per-alignment-start 0 --min-base-quality-scrore 10 --pair-hmm-implementation FAST_AVAILABLE ) chr7에 한.......

Naver Blog

haplotypecaller - pairHMM (미정리)

pairHMM의 목적은 read와 haplotype 의 likelihood를 계산하기 위함이다. 이 계산은 baye's rule에 적용할 것인데, variant site의 allele를 추정하기 위함이다. HMM algorithm은 매우 어렵지만, pairHMM은 HMM의 식만 가져왔다. 그래서 훨씬 간단하게 계산이 가능한데, R = read H = haplotype Mij = Ri가 Hj에 align 될 때 2개의 subsequence (2개의 NT) 인 R1...Ri 와 H1...Hj가 나올 확률 Iij = Ri 가 gap에 align 되었을 때 R1 ... Ri 와 H1 ... Hj 가 alignment 될 확률 Dij = Hj가 gap에 align 되었을 때 R1 ... Ri 와 H1 ... Hj가 alignment 될 가능성 공부중

Naver Blog

pathway분석) pathway 분석이란

pathway 분석이라는 게 무슨말인지 이해가 안되었었는데, 이번에 CTC 공부하면서 이해하게 된 것 같다. 그래서 pathway 란 무엇인지 알아보고자 한다. pathway 분석은 RNA-seq 같은 enrichment analysis로 확인해볼 수 있다. enrichment analysis란 RNA-seq 은 micorarray보다 많은 samples를 분석할 수 있는데 두 방법 모두 발현량 정도의 차이를 확인 할 수 있다. (발현이 과발현(up-regulation) , 저발현(down-regulation) 되었는가 의 차이등) 발현의 차이가 생기는 건 promoter 서열이 변하거나 frame deletion/insertion 등으로 인해 start codon / stop codon에 영향이 가서 생기는 문제 또는 translation factor 이 과발현/저발현 되거나.......

Naver Blog

pathway분석) GO (Gene ontologgy) 란 ?

http://geneontology.org/docs/ontology-relations/ GO (gene ontology) 란 유전자기능 연구를 위해 개별 유전자(gene)에 대해 유전자가 관련된 세포기작(biological process), 유전자가 가지는 분자기능(molecular fuctions), 유전자의 세포 내외 위치(cellular component)를 주석(Annotation)으로 달아오는 구조화된 모델이다. GO 는 amiGO 2 를 통해 검색할 수 있으며 QuickGo 를 통해 확인하게 되면 Accestor Chart 형태로 확인해볼 수 있어서 상하좌우 관계를 찾아볼 수 있다. 아래의 예시는 component 의 데이터를 Chart화 시킨 경우이다. 그러면 각각의 GO box에 대해 화살표가 각각 색이 다른 걸 확인해볼 수 있는데, 각 화살표의 색이 어.......

Naver Blog

펌)Deep Learning, NLP, 그리고 Representation

https://dgkim5360.tistory.com/entry/deep-learning-nlp-and-representations-kr

Naver Blog

R) Bioconductor 설치

CNV 분석을 위해 R package를 설치해보고자 한다. R 을 사용할 때 사용하는 R의 version에 따라 code 가 달라진다. 어찌보면 Version에 따라 코드가 달라지는 건 당연하겠지만 익숙한 언어가 ptyhon인 내게 R 설치는 복잡했다. 내가 사용하는 R의 version은 3.6.2 version DNAcopy를 설치하기 위해서 R version 3.6 에서는 BiocManager 를 사용해야 한다고 한다. 그러나 BioManager version 또한 중요한데, 3.11 일 때는 안되고 3.10 이여야만 install 이 가능하다. 이후 원하는 package가 있다면, 이런식으로 설치하면 된다.

Naver Blog

R) DNAcopy

http://www.bioconductor.org/packages/release/bioc/html/DNAcopy.html 미완료

Naver Blog

GWAS)다중검정의 문제

다중비교문제란 가설에 근거하지 않고 무작정 많은 비교를 하다보면 실제 연관성이 없음에도 불구하고 우연에 의해 연관성이 있는 것처럼 나올 수 있는 걸 말한다. 예를들어 폐암과 연관성이 있는 Clinical features 를 확인해기 위해 100가지 features에 대해 연관성 분석을 한다고 가정해보자. 이때 유의수준 0.05 로 잡고 폐암의 case, control 를 수집하고 연속형 데이터일 땐 t-test, 범주형 데이터일 땐 카이제곱 검정을 수행시 유의수준 0.05 보다 낮게 나온 Clinical features 6 개가 나왔다. 하지만 100가지 요인에 대해 검증을 하나로 볼 때, 모든 변수가 연관성이 실제로 없더라도 평균 5개의 잘못된 결론을 내릴 수 있게 된다. 유의.......

Naver Blog

RNAseq)ncRNA의 종류와 기능

WES 이나 GWAS 의 결과물(polymorphism)을 보다보면 DNA에 해당하는 것도 있지만, RNA에 해당하는 것들도 있다 Central dogma 로, DNA -> RNA -> protein 이 결정되는데, Gene의 DNA를 분석하는 과정을 genomics 그러나 Gene의 DNA와 DNA와 DNA로 전사,번역되는 protein과 1:1 매칭이 된다면 21,000 개의 protein밖에 만들어지지 않는다. 곧 염기의 레벨로 본다면 30억 Basepairs 중 약 2%만이 실제 유전자가 차지하는 비율이 된다. 이러한 한계를 넘고자 mRNA 수준에서 다루게 되된다. DNA는 RNA가 되는 과정 중 splicing의 과정으로 여러종류의 proteins 을 만들 수 있고 발현량이 조절되기 도한다. Case, Control 을 비교하여 mRNA의 발.......

Naver Blog

(web) Search to Genomic sequence (Using UCSC, NCBI)

1. Gene의 전체 genomic sequence(.fasta)를 알고 싶은 경우 : NCBI와 UCSC를 사용하면 된다. -NCBI 1) gene 찾기 https://www.ncbi.nlm.nih.gov/gene 에서 gene 을 검색한다. 2) Reference 선택 reference는 hg38, hg19가 있는데 이전 microarray부터 연구부터 쌓인 정보들은 hg19에 있어서 hg38을 reference로 사용한 경우, 사용할 수 없는 정보들이 있다. 보통 mapping에 hg19를 사용한다. NP랑 NM이 1:1 매칭이거나 보통 더 많다.(이유가 궁금하면 쪽지주세요) 보고싶은 NM에 마우스를 올려두면 이런식으로 박스가 뜰텐데, 보고싶은 서열을 확인하면 된다. 이렇게 하면 정방향의 sequence가 검색이 된다. -UCSC 1) gene 검색 https://genome........

Naver Blog

(CTC) 폐암의 종류 및 관련 유전자

먼저, 폐암에 대해 알아보자면 종류가 다양하며 각각 원인이 되는 대표적인 유전자들도 다르다. 그래서 먼저 종류부터 알아보자. 1) 폐암의 정의 암세포가 폐를 구성하는 조직에서 발생한 원발성 폐암과 암세포가 다른 기관에서 생겨나 혈관과 림프관을 타고 폐로 이동해 증식하는 전이성 폐암으로 나뉜다. 2) 폐암의 종류 폐암이란 현미경적으로 암세포의 크기와 형태에 따라 비소세포폐암(Non small cell carcinoma)과 소세포폐암(Small cell carcinoma)로 나뉜다. 이를 나누는 기준은 크기이며 현미경으로 암세포를 보았을 떄, 세포의 크기가 작은 경우, 소세포폐암, 작지 않은 경우 비소세포폐암이라 한다. 이렇게 구분하는 이유는 임상적 경.......

Naver Blog

(NGS정리)Ts/Tv ratio

control 과 case에서의 차이가 분명하게 존재하였다. 그러나 normal 도 0.5에 근접하지 않았고 case도 2.5에 근접한 데이터가 많지 않음에 따라 NGS과정 중 정확하지 않은 것일 수 있겠다 싶었다.

Naver Blog

R) Soft-wrap 자동 줄바꿈 옵션

Soft-wrap 기능을 설정해두면 화면에서 넘어갈 정도로 길어진 내용은 자동으로 줄바꿈이 된다. Tools -> global option -> code -> soft-wrap R source files

Naver Blog

R) 한글이 깨지는 경우

스크립트 내용 중에서 한글 부분이 깨저서 나오는 경우가 있는데, 대부분 문제의 이유는 인코딩 설정의 문제이다. Tools 0> Project Options -> Code Editing -> UTF-8

Naver Blog

R) 변수 설정 c()

python 의 list 와 비슷한 설정인 c() 와 seq(, , by= ) 에 대해 알아보고자 한다.

Naver Blog

R) 패키지 설치

오픈소스 기반 R의 장점 중 하나로, 다른 사용자들이 만든 함수가 들어간 패키지를 사용하는 게 가능하다. 그래서 엄청 무겁지 않고 원하는 함수가 담긴 패키지만 설치할 수 있다는 장점이 있다. 패키지 설치 예시를 들어가보려고 한다. #install 1) install_packages("ggplot2") #load 2) library(ggplot2) function "qplot" in ggplot2 qplot은 빈도막대 그래프로서, c()에 담긴 변수의 빈도를 막대 그래프로서 나타낸다.

Naver Blog

R) data.frame

a <- c(var1, var2, var3, var4) b <- c(var5, var6, var7, var8) dataframe 의 input 은 feature로서, Input 이 많아질수록 처리하기 어려운 "빅"데이터에 가까워진다.

Naver Blog

NGS정리) Soft cliping

아직 NGS 관련 용어들이 한국어로 번역 이 잘 된 사이트가 없어서 공부하다가 막히는 경우가 많은 것 같다. Soft clip도 한국어로 번역된 곳이 없어서 Soft cliping 에 대해 다른 사이트의 정보를 번역해보았다. https://sequencing.qcfail.com/articles/soft-clipping-of-reads-may-add-potentially-unwanted-alignments-to-repetitive-regions/ Soft-clipping 이라고도 하며, read 의 양쪽(either side)가 reference genome에 매칭이 잘 되지 않은 부분들이 alignment할 때 무시하는 걸 말한다.(곧 mapping 이 100 bp 모두 mapping이 되지 않았더라도 mismatch된 부분을 무시한다는 뜻이다.)

Naver Blog

haplotypecaller - smith waterman algorithm

De-Bruijn graph 를 통해 만들어진 각 active region에 해당하는 haplotypes과 해당하는 reference 를 비교한다. dynamic programming 과 유사한데, 이 둘을 비교하기 위해서 이러한 table을 모두 채워야 한다. 채워갈 때는, 아래, 오른쪽, 왼쪽아래 대각선 채우는 방법은 substitution matrix 와 Gap penalty 를 사용한다. 이렇게 채워진 table을 따라서 이렇게, 확실하지 않은 자리를 통해 variant site를 유추하게 된다. 유추할 때는 왼쪽, 위쪽, 왼쪽위 대각선 유추된 variant site를 통해 pairHMM에 사용하게 된다.

Naver Blog

(윤문법) in vs at 간단 이해 및 구분하기

in the morning in the afternoon in the evening at dawn at noon at midnight at과 in의 차이는 무엇일까?? in이라는 전치사는 경계가 있는 곳 안에 있는 의미이다. at은 점의 개념 임. 그래서 in은 한국에서 = in korea (한국이라는 경계) at은 버스 정류장에서 = at the bus stop (정확한 범위가 없는 그 지점) 그래서 뭔가 수치를 콕 찝어서 설명할 때는 at을 쓴다. 예를들어 시속 at 60 km, at 60 kg, at 9o'clock 같은 곳에 at을 쓴다고 본다. morning 이라는 건 해뜬 그때 ~ 정오 까지 the 는 범위를 정해주는 정관사임. 그래서 범위가 있고 그 범위를 정해주는 정관사인 in the morning dawn = 동틀녘 이는 해가 뜨.......

Naver Blog

Mutect2

확률론적 분석법 확률론적 분석을 하기 위해서, 정상 샘플은 한가지 Allele로만 구성된 homozygous 이며 암 샘플은 heterozygous 한지를 검증하는 것이다. 그래서 아래 두가지 모두 다 통과할 경우에만 somatic mutation으로 채택될 수 있다. 1) 만일 정상 샘플에서 mismatch 를 보이는 reads가 있다면, 이는 반드시 시퀀싱 오류에 의한 것이여야 한다. 2) 암 샘플에서 발견되는 mismatch 들은 시퀀신 오류를 훨씬 뛰어넘는 likelihood를 보여야 한다. 위 두가지 조건에 대해 그림을 참고하여 설명해보자. 정상샘플에서는 5개 reads가 모두 'G' 이니까, homozygous 로 보이기에 통과한다. 'T' 2개가 heterozygous하다 라는 모.......

Naver Blog

Mutect2 tumor only mode filter

tumor only mode 에서 만들어지는 filter 정보들을 모아보았다. 종류만 225가지가 나온다. 너무 많으니 하나하나 의미있는 정보들을 모아보자. base_qual clustered_event contamination fragment germline haplotype map_qual multiallelic panel_of_normal PASS position slippage strand_bias weak_evidence ##FILTER=<ID=base_qual,Description="alt median base quality"> ##FILTER=<ID=clustered_events,Description="Clustered events observed in the tumor"> ##FILTER=<ID=contamination,Description="contamination"> ##FILTER=&l.......

1 2