直接使用蛋白、基因表达等QTLs文件的MR标准输入格式和对应的基因注释信息,结合疾病GWAS数据,可一次性批量完成多个蛋白和疾病GWAS的共定位分析。

Usage,
coloc_batch_qtl(
  gwas_path1 = "",
  gwas_annotation = "",
  gwas_path2 = "",
  up_num = 1e+06,
  down_num = 1e+06,
  prepare_method = 1,
  type1 = "quant",
  SS1 = 35559,
  NC1 = 0,
  type2 = "cc",
  SS2 = 0,
  NC2 = 0,
  snp_deduplication_by = "maf",
  run_coloc_susie = F,
  plink_exe = get_plink_exe(),
  bfile = "",
  coloc_plot = T,
  coloc_plot_pph4 = 0.6,
  coloc_plot_genome = "hg38",
  coloc_plot_snp = "common_top_snp",
  coloc_plot_width = NULL,
  coloc_plot_height = NULL,
  coloc_plot_dpi = 500,
  out_path = "./"
)

参数

gwas_path1

批量分析中用到的QTLs文件,为MR分析的标准输入格式。

gwas_annotation

QTL文件的注释文件,包括输入文件对应的基因,以及基因所在的染色体位置信息,必须含如下列:file_name、gene_chr、gene_start、gene_end。 该注释数据的作用是用于coloc分析,指定顺式区域以提取snp数据。

gwas_path2

指定疾病或者其他性状GWAS数据的文件地址,该文件必须是经过处理的MR分析标准文件。

up_num

指定顺式区域的范围,一般默认是基因区域的上下游1mb(1e6)碱基范围。默认1e6。

down_num

指定顺式区域的范围,一般默认是基因区域的上下游1mb(1e6)碱基范围。默认1e6。

prepare_method

用于准备coloc分析和coloc作图数据的方法,1或者2,默认1。 方法1是按照染色体区域进行选择SNP,需要满足GWAS1与GWAS2的参考基因组版本均为hg19或者hg38; 方法2是按照SNP的rsid选择SNP,以GWAS1的染色体坐标为参考,不使用GWAS2的chr和pos信息。

type1

GWAS1研究的数据类型,可以是数量性状"quant",也可以是二分类性状"cc"。这里处理的数据是decode2021来源的蛋白数据,所以为“quant”。

SS1

GWAS1研究中的样本总数。SS是sample size的缩写。

NC1

如果GWAS1研究是二分类性状,需要提供病例的数量。NC是ncase的缩写。

type2

GWAS2研究的数据类型,数量性状"quant"或二分类性状"cc",默认为“cc”。

SS2

GWAS2研究中的样本总数。SS是sample size的缩写。

NC2

如果GWAS2研究是二分类性状,需要提供病例的数量。NC是ncase的缩写。

snp_deduplication_by

如果snp的rsid存在重复,按照"pval"或者"maf"去重。 如果按照"pval"去重,则保留pval最小的一个;按照"maf"去重,则保留maf最大的一个。默认按照"maf"去重。

run_coloc_susie

是否进行coloc.susie共定位分析,默认F。

plink_exe

如果run_coloc_susie=T,plink默认内置最新plink即可。

bfile

如果run_coloc_susie=T,需要提供bfile文件,如z:/data/G1000/1kg.v3/1kg.v3/EUR

coloc_plot

是否绘制coloc共定位的图,包括coloc_plot_locuscompare和coloc_plot_stack_assoc,默认为T。

coloc_plot_pph4

当coloc_plot = T的时候,共定位分析中pph4达到多少的时候可绘制coloc共定位图,默认是0.6。

coloc_plot_genome

当coloc_plot = T的时候,提取坐标轴信息的参考基因组信息,默认是hg38。可以是hg37(或37)或者hg38(或38)。

coloc_plot_snp

当coloc_plot = T的时候,绘图时标注的snp,默认是'common_top_snp',即在两个绘图gwas文件中,满足p值相加最小的一个,即min(p1+p2)对应的rsid。 可以是'common_top_snp',或'top_snp'。'top_snp'指的是,在两个gwas数据中,分别是p值最小的top snp。

coloc_plot_width

当coloc_plot = T的时候,绘图图片的宽度,单位是mm。如果未指定(NULL),默认是A4纸的宽度,210mm。

coloc_plot_height

当coloc_plot = T的时候,绘图图片的宽度,单位是mm。如果未指定(NULL),默认是:60+60*GWAS数量。

coloc_plot_dpi

绘图图片的像素点,默认是500。一般大于300即可。

out_path

指定输出文件的目录

输出共定位分析结果文件