批量共定位分析,eqtlgen与GWAS

Usage,
coloc_batch_eqtlgen(
  expusures_ieu = NULL,
  exposure_local = NULL,
  outcomes_ieu = NULL,
  outcomes_local = NULL,
  eqtlgen_annotation = Ensembl_GRCh37,
  eqtlgen_cis_wind = 1e+06,
  prepare_method = 1,
  type1 = "quant",
  SS1 = 31684,
  NC1 = 0,
  type2 = "cc",
  SS2 = 0,
  NC2 = 0,
  snp_deduplication_by = "maf",
  run_coloc_susie = F,
  bfile = "",
  plink_exe = get_plink_exe(),
  coloc_plot = T,
  coloc_plot_pph4 = 0.6,
  coloc_plot_genome = "hg37",
  coloc_plot_snp = "common_top_snp",
  coloc_plot_width = NULL,
  coloc_plot_height = NULL,
  coloc_plot_dpi = 500,
  out_path = "./"
)

参数

expusures_ieu

提供ieu数据库中eqtlgen来源的id,可以是基因ensemble id(如ENSG00000113161)或者eqtl-a-开头的id(如eqtl-a-ENSG00000116288),可以是一个或者多个。

exposure_local

提供eqtlgen来源的本地数据。该文件为ieu网站下载的eqtlgen原始数据,如eqtl-a-ENSG00000116288.vcf.gz,可以是一个或者多个。

outcomes_ieu

结局是否是从ieu在线数据库提取,如果是,请提供ieu中的结局id,如 "ieu-a-7"。

outcomes_local

结局是否是本地数据,如果是,请提供地址。该文件必须是经过处理的MR分析标准文件

eqtlgen_cis_wind

指定id基因范围的顺式区域,默认是基因上下游的1mb范围。

prepare_method

用于准备coloc分析和coloc作图的方法,1或者2,默认1。 方法1是按照染色体区域进行选择SNP,需要满足GWAS1与GWAS2的参考基因组版本均为hg19或者hg38; 方法2是按照SNP的rsid选择SNP,以GWAS1的染色体坐标为参考,不使用GWAS2的chr和pos信息。

type1

基因eQTLs研究的类型,默认是quant

SS1

基因eQTLs研究中用到的样本量,默认是31684。 参考文献:Võsa U, Claringbould A, Westra HJ, et al. Large-scale cis- and trans-eQTL analyses identify thousands of genetic loci and polygenic scores that regulate blood gene expression. Nat Genet. 2021;53(9):1300-1310. doi:10.1038/s41588-021-00913-z

NC1

基因eQTLs研究中case的数量,默认为0。

type2

GWAS2研究的数据类型,数量性状"quant"或二分类性状"cc",默认为“cc”。

SS2

GWAS2研究中的样本总数。SS是sample size的缩写。

NC2

如果GWAS2研究是二分类性状,需要提供病例的数量。NC是ncase的缩写。

snp_deduplication_by

如果snp的rsid存在重复,按照"pval"或者"maf"去重。 如果按照"pval"去重,则保留pval最小的一个;按照"maf"去重,则保留maf最大的一个。默认按照"maf"去重。

run_coloc_susie

如果GWAS2研究是二分类性状,需要提供病例的数量。NC是ncase的缩写。

bfile

如果run_coloc_susie=T,需要提供bfile文件,如z:/data/G1000/1kg.v3/1kg.v3/EUR

plink_exe

如果run_coloc_susie=T,plink默认内置最新plink即可。

coloc_plot

是否绘制coloc共定位的图,包括coloc_plot_locuscompare和coloc_plot_stack_assoc,默认为T。

coloc_plot_pph4

当coloc_plot = T的时候,共定位分析中pph4达到多少的时候可绘制coloc共定位图,默认是0.6。

coloc_plot_genome

当coloc_plot = T的时候,提取坐标轴信息的参考基因组信息,默认是hg37。可以是hg37(或37)或者hg38(或38)。

coloc_plot_snp

当coloc_plot = T的时候,绘图时标注的snp,默认是'common_top_snp',即在两个绘图gwas文件中,满足p值相加最小的一个,即min(p1+p2)对应的rsid。 可以是'commo_top_snp',或'top_snp'。'top_snp'指的是,在两个gwas数据中,分别是p值最小的top snp。

coloc_plot_width

当coloc_plot = T的时候,绘图图片的宽度,单位是mm。如果未指定(NULL),默认是A4纸的宽度,210mm。

coloc_plot_height

当coloc_plot = T的时候,绘图图片的宽度,单位是mm。如果未指定(NULL),默认是:60+60*GWAS数量。

coloc_plot_dpi

绘图图片的像素点,默认是500。一般大于300即可。

out_path

指定输出文件的目录

输出共定位分析结果文件

Examples

coloc_batch_eqtlgen(exposure_local= c("./data_raw/eqtlgen/eqtl-a-ENSG00000116288.vcf.gz","./data_raw/eqtlgen/eqtl-a-ENSG00000122873.vcf.gz"),
                    outcomes_local = "./data_prepare/ieu-a-31.txt",
                    type1 = "quant",
                    SS1 = 31684,
                    NC1 = 0,
                    type2 = "cc",
                    SS2 = 34652,
                    NC2 = 12882 ,
                    bfile = "./data_ref/EUR",
                    out_path = "./"
                    )