coloc_batch_ukbppp.Rd直接使用ukbppp2023来源的原始数据和我们提供的蛋白注释文件,结合疾病GWAS数据,可一次性批量完成多个蛋白和疾病GWAS的共定位分析。
coloc_batch_ukbppp(
gwas_path1 = "",
snp_annotation_dir = "",
pos_col = "POS38",
gwas_annotation = gwas_annotation_ukbppp,
gwas_path2 = "",
up_num = 1e+06,
down_num = 1e+06,
prepare_method = 1,
type1 = "quant",
SS1 = 33995,
NC1 = 0,
type2 = "cc",
SS2 = 0,
NC2 = 0,
snp_deduplication_by = "maf",
run_coloc_susie = F,
plink_exe = get_plink_exe(),
bfile = "",
coloc_plot = T,
coloc_plot_pph4 = 0.6,
coloc_plot_genome = "hg38",
coloc_plot_snp = "common_top_snp",
coloc_plot_width = NULL,
coloc_plot_height = NULL,
coloc_plot_dpi = 500,
out_path = "./"
)批量分析中用到的蛋白文件,为ukbppp2023的原始文件
snp注释文件的地址,为SNP RSID maps文件夹的地址(内含1-22和x和xy染色体的注释信息)
snp注释文件中,选取POS38作为snp的染色体坐标信息。因为蛋白的注释文件提供的坐标是hg38版本,所以目前这里仅支持hg38版本。
蛋白的注释文件,包括每个蛋白文件对应的基因,以及基因所在的染色体位置信息,默认gwas_annotation_ukbppp即可,为hg38版本(数据已内置R包)。用于coloc分析,指定顺式区域以提取snp数据。
指定疾病或者其他形状GWAS数据的文件地址,该文件必须是经过处理的MR分析标准文件
指定顺式区域的范围,一般默认是基因区域的上下游1mb(1e6)碱基范围。
指定顺式区域的范围,一般默认是基因区域的上下游1mb(1e6)碱基范围。
用于准备coloc分析和coloc作图的方法,1或者2,默认1。 方法1是按照染色体区域进行选择SNP,需要满足GWAS1与GWAS2的参考基因组版本均为hg19或者hg38; 方法2是按照SNP的rsid选择SNP,以GWAS1的染色体坐标为参考,不使用GWAS2的chr和pos信息。
GWAS1研究的数据类型,可以是数量性状"quant",也可以是二分类性状"cc"。这里处理的数据是ukbppp2023来源的蛋白数据,所以为“quant”。
GWAS1研究中的样本总数。SS是sample size的缩写。这里处理的数据是ukbppp2023来源的蛋白数据,所以SS1=33995。
如果GWAS1研究是二分类性状,需要提供病例的数量。NC是ncase的缩写。这里处理的数据是ukbppp2023来源的蛋白数据,该参数不用设置,保持默认NC1=0。
GWAS2研究的数据类型,数量性状"quant"或二分类性状"cc",默认为“cc”。
GWAS2研究中的样本总数。SS是sample size的缩写。
如果GWAS2研究是二分类性状,需要提供病例的数量。NC是ncase的缩写。
如果snp的rsid存在重复,按照"pval"或者"maf"去重。 如果按照"pval"进行去重,则保留pval最小的一个;按照"maf"进行去重,去保留maf最大的一个。默认按照"maf"进行去重。
是否进行coloc.susie共定位分析,默认F。
如果run_coloc_susie=T,plink默认内置最新plink即可。
如果run_coloc_susie=T,需要提供bfile文件,如z:/data/G1000/1kg.v3/1kg.v3/EUR
是否绘制coloc共定位的图,包括coloc_plot_locuscompare和coloc_plot_stack_assoc,默认为T。
当coloc_plot = T的时候,共定位分析中pph4达到多少的时候可绘制coloc共定位图,默认是0.6。
当coloc_plot = T的时候,提取坐标轴信息的参考基因组信息,默认是hg38。可以是hg37(或37)或者hg38(或38)。
当coloc_plot = T的时候,绘图时标注的snp,默认是'common_top_snp',即在两个绘图gwas文件中,满足p值相加最小的一个,即min(p1+p2)对应的rsid。
当coloc_plot = T的时候,绘图图片的宽度,单位是mm。如果未指定(NULL),默认是A4纸的宽度,210mm。
当coloc_plot = T的时候,绘图图片的宽度,单位是mm。如果未指定(NULL),默认是:60+60*GWAS数量。
绘图图片的像素点,默认是500。一般大于300即可。
指定输出文件的目录
当coloc_plot = T的时候,坐标轴的类型,默认是log10p。可以是log10p或prob。
输出共定位分析结果文件
coloc_batch_ukbppp(
gwas_path1 = c("./data/A1BG_P04217_OID30771_v1_Inflammation_II.tar"),
snp_annotation_dir="./data/ukbppp_rsid_maps",
gwas_path2="./data_prepare/finngen_R8_T2D_WIDE.txt",
bfile = "./data/1kg.v3/EUR",
SS2 = 284971,
NC2 = 33043)