FUSION 是一套用于执行转录组范围和调控组范围关联研究 (TWAS 和 RWAS) 的工具。 FUSION 构建功能/分子表型的遗传成分的预测模型,并使用 GWAS 汇总统计数据预测和测试该成分与疾病的关联。目标是确定 GWAS 表型与仅在参考数据中测量的功能表型之间的关联。 如果使用到TWAS方法,Please cite the following manuscript for TWAS methods: DOI: 10.1038/ng.3506; 如果使用到RWAS方法,Please cite the following manuscript for RWAS methods and models: DOI: 10.1038/s41588-022-01075-2

Usage,
fusion_assoc(
  sumstat_path = NULL,
  sumstat_data = NULL,
  weights = NULL,
  weights_dir = NULL,
  ref_ld_chr_prefix = "./LDREF/1000G.EUR.",
  ref_ld_chr_num = 1:22,
  out_path = "./",
  out_prefix = "fusion_assoc",
  coloc_p = NA,
  PANELN = NA,
  GWASN = NA,
  force_model = NA,
  caviar = FALSE,
  max_impute = 0.5,
  min_r2pred = 0.7,
  perm = 0,
  perm_minp = 0.05,
  strategy = "multisession",
  workers = 2
)

参数

sumstat_path

用于fusion分析的结局gwas文件,为.sumstats文件,可以是1个或者多个结局。

sumstat_data

用于fusion分析的结局gwas数据,为读取.sumstats文件的矩阵文件,只能是1个结局。

weights

权重文件

weights_dir

权重详情的文件夹路径,含weight文件和详情文件

ref_ld_chr_prefix

LD参考文件,含.bim,.bed和.fam文件。写前缀即可。 情况1:如1000G.EUR.1.bed,1000G.EUR.1.bed和1000G.EUR.1.fam,写"1000G.EUR.1."即可。 情况2:如多条染色体数据,1000G.EUR.1.bed,1000G.EUR.1.bed和1000G.EUR.1.fam;1000G.EUR.2.bed,1000G.EUR.2.bed和1000G.EUR.2.fam...写"1000G.EUR."即可。

ref_ld_chr_num

指定用于分析的染色体序号,默认为1:22。如果是1号染色体,写"1";如果是1至22号染色体,写"1:22"; 如果是1和3和5号染色体,写"c(1,3,5)"。

out_path

输出结果文件的路径。

out_prefix

输出结果文件的前缀

coloc_p

是否进行coloc分析,默认为NULL。当fusion twas分析的p值满足小于coloc_p,即进行coloc分析。

PANELN

权重文件中的样本数量,默认为NULL。当进行coloc分析的时候,需要设置PANELN。

GWASN

GWAS文件中的样本数量,默认为NULL。当进行coloc分析的时候,需要设置GWASN。注意:GWASN与sumstat_path,必须一一对应。

force_model

强制使用特定的预测模型,默认为NA,默认选择最显著的交叉验证。如需要指定预测模型,可选则:blup、lasso、top1、enet。

caviar

生成用于精细定位的eCAVIAR格式文件(.Z,.LD),默认为FALSE。如果设置为T,对应的文件输出到out_path/caviar文件夹下。

max_impute

每个基因允许缺失SNP的最大比例(将使用LD估算)。默认0.5。

min_r2pred

允许表达权重 SNP Z 分数的最低平均 LD 估算准确度。默认0.7。

perm

对于每个特征测试要执行的最大排列数,默认0(关闭)。 Maximum number of permutations to perform for each feature test。

perm_minp

当perm>0的时候,启动排列检验的最小P值,默认为0.05。Minimum p-value for which to initiate permutation test。

strategy

并行方式,同future::plan参数。

workers

并行线程数,默认2个,根据自己电脑内存及CUP核心数填写。

返回fusion分析结果文件

Examples

# 示例1,fusion分析
fusion_assoc(sumstat_path = "./data_prepare/finngen_R10_G6_MIGRAINE_treated.sumstats",
weights = "f:/data_fusion/GTExv8.ALL2/GTExv8.ALL.Whole_Blood/GTExv8.ALL.Whole_Blood.pos",
weights_dir = "f:/data_fusion/GTExv8.ALL2/GTExv8.ALL.Whole_Blood/",
ref_ld_chr_prefix = "f:/data_fusion/LDREF/1000G.EUR.",
ref_ld_chr_num = 1:22,
out_path = "./results_one")

# 示例2,fusion+coloc分析
fusion_assoc(sumstat_path = "./data_prepare/finngen_R10_G6_MIGRAINE_treated.sumstats",
weights = "f:/data_fusion/GTExv8.ALL2/GTExv8.ALL.Whole_Blood/GTExv8.ALL.Whole_Blood.pos",
weights_dir = "f:/data_fusion/GTExv8.ALL2/GTExv8.ALL.Whole_Blood/",
ref_ld_chr_prefix = "f:/data_fusion/LDREF/1000G.EUR.",
ref_ld_chr_num = 1:22,
coloc_p = 0.05,       # coloc_p,是满足fusion分析的TWAS.P小于指定的coloc_p,即开始进行coloc分析
GWASN = 20908+312803, # GWASN为GWAS研究中的样本量
out_path = "./results_coloc")