fusion-cojo分析 — fusion_cojo • DrugTargetMR

按照panel进行分别绘图。当同一条染色体对应两个及以上阳性结果基因的时候，再进行COJO分析和绘图。

Usage,

fusion_cojo(
  input = NA,
  sumstats = NA,
  ref_ld_chr_prefix = NA,
  ref_ld_chr_num = 1,
  min_p = NA,
  min_p_adj = 0.05,
  p_adj_method = "bonferroni",
  max_r2 = 0.9,
  min_r2 = 0.05,
  locus_win = 1e+05,
  max_cz_increase = 1.96,
  plot = FALSE,
  plot_legend = NA,
  glist_hg19 = NA,
  glist = NA,
  plot_corr = FALSE,
  plot_individual = FALSE,
  plot_eqtl = FALSE,
  plot_scatter = FALSE,
  plot_eqtl_model = "top1",
  save_loci = FALSE,
  zthresh = FALSE,
  digits = 3,
  out_path = "./",
  out_prefix = NULL
)

参数

input: fusion_assoc()执行的输出文件，ID列需要改成gene symbol，方便展示。
sumstats: 用于fusion分析的结局gwas文件，为.sumstats文件，只能是1个文件。
ref_ld_chr_prefix: LD参考文件，含.bim，.bed和.fam文件。写前缀即可。情况1：如1000G.EUR.1.bed，1000G.EUR.1.bed和1000G.EUR.1.fam，写"1000G.EUR.1."即可。情况2：如多条染色体数据，1000G.EUR.1.bed，1000G.EUR.1.bed和1000G.EUR.1.fam；1000G.EUR.2.bed，1000G.EUR.2.bed和1000G.EUR.2.fam...写"1000G.EUR."即可。
ref_ld_chr_num: 指定用于分析的染色体序号，默认为1:22。如果是1号染色体，写"1"；如果是1至22号染色体，写"1:22"; 如果是1和3和5号染色体，写"c(1,3,5)"
min_p: 默认为NA，则程序选择校正后p值进行筛选。设置筛选TWAS结果的p阈值，限定用于后续分析的基因。TWAS Pvalue满足小于设定的p阈值，则纳入后续的分析。
min_p_adj: 默认0.05。min_p筛选的优先级高于min_p_adj，当设置了min_p的时候，min_p_adj失效。
p_adj_method: 默认为“bonferroni”。当min_p=NA的时候，程序使用p.adjust()函数计算校正后的p值。可选用于p值校正的方法，可选如下：c("holm", "hochberg", "hommel", "bonferroni", "BH", "BY","fdr", "none")
max_r2: 默认0.90。考虑连锁不平衡因素，当满足r2 > max_r2的时候，认为该基因作是独立的。
min_r2: 默认0.05。考虑连锁不平衡因素，当满足r2 < min_r2的时候，认为该基因作是非独立的。
locus_win: 默认1e5，确定每个基因座应该扩展多少碱基对来定义连续的基因座区域，即绘图中显示的染色体区域。
max_cz_increase: 默认1.96，限制条件Z分数在条件分析中的最大增加值，用于识别和处理那些在条件分析中显著性增加的基因座。
plot: 默认F。用于生成每个基因座（locus）的可视化图，locus图。
plot_legend: 默认NA，可以选择"all"和"joint"。作用是增加权重文件的panel注释。
glist_hg19: 基因信息，glist-hg19或glist-hg38文件(后续版本中会移除该参数)
glist: 基因信息，glist-hg19或glist-hg38文件
plot_corr: 默认F。是否生成每个基因座的遗传值（genetic values）之间的相关性图。
plot_individual: 默认F。是否为每个单独的基因生成条件分析的图。
plot_eqtl: 默认F。是否在GWAS数据下载，添加eQTL图。需要满足：plot = T, plot_individual=T。
plot_scatter: 默认F。是否绘制散点图。需要满足：plot = T, plot_individual=T。
plot_eqtl_model: 默认top1。当plot_eqtl=T时，用于绘图的权重模型。可选模型：top1,blup,bslmm,enet,lasso or best，详细情况需根据输入权重文件进行确认。
save_loci: 默认F。保存每个基因座的条件化GWAS结果。
zthresh: 默认F，默认程序会根据可用于条件性分析的基因数量进行p值校正（0.05/基因数量），从而计算z值。只有当某个基因座的Z分数超过这个阈值时，才会对其进行汇总条件分析。
digits: 输出文件保留小数位
out_path: 输出结果文件的路径。
out_prefix: 输出结果文件的前缀

Examples

# ensembl id改为gene symbol
# glist_hg19文件中提供的是基因名，故需要将 [fusion_assoc] 分析结果中的ensembl id改为gene symbol
aaa_dat <- data.table::fread("./results/results_fusion/GTExv8.ALL.Cells_Cultured_fibroblasts.pos_summary.csv",data.table = F)
aaa_dat$ENSG <- substr(aaa_dat$ID,1,regexpr("\\.",aaa_dat$ID)-1)
aaa_dat1 <- merge(aaa_dat,Ensembl_GRCh37[,c("gene_id","gene_name")],by.x="ENSG",by.y="gene_id")
aaa_dat1$ID <- aaa_dat1$gene_name
file_genesymbol <- "./results/results_fusion/GTExv8.ALL.Cells_Cultured_fibroblasts.pos_summary_t.csv"
data.table::fwrite(aaa_dat1,file = file_genesymbol,quote = F,sep = "\t",row.names = F)

fusion_cojo(input = file_genesymbol,
            out_path = "./results/results_fusion/cojo2",
            sumstats = "./data_prepare/finngen_R10_G6_MIGRAINE.sumstats",
            ref_ld_chr_prefix = "f:/data_fusion/LDREF/1000G.EUR.",
            ref_ld_chr_num =  c(2,22),
            locus_win = 5e+05,
            p_adj_method = "fdr",
            plot = T,
            plot_legend = "joint",
            glist = "e:/fusion_twas-master/glist-hg19")