用于绘制smr分析的数据准备

Usage,
smr_plot_prepare(
  smr_exe_path,
  bfile,
  qtls_path,
  gwas_path,
  queried_probe,
  queried_probe_wind = 500,
  glist_path,
  out_path = "./",
  out_prefix = "query",
  diff_freq = 0.2,
  diff_freq_prop = 0.05,
  maf = 0,
  smr_cis_wind = 2000,
  smr_peqtl = 5e-08,
  smr_multi_snp = T,
  smr_multi_set_wind = NULL,
  smr_multi_ld_prune = 0.1,
  heidi_method = 1,
  heidi_peqtl = 0.00157,
  heidi_ld_upper_limit = 0.9,
  heidi_ld_lower_limit = 0.05,
  heidi_min_m = 3,
  heidi_max_m = 20,
  thread_num = 1,
  to_genes = T,
  ensembldb = "hg38"
)

参数

smr_exe_path

smr-1.3.1-win.exe可执行文件的地址

bfile

g1000参考基因组的文件地址

qtls_path

smr分析中的snp文件,qtls_path用来指定提取snp数据的数据源,GTEx 或 eQTLGen血液数据

gwas_path

smr分析中的gwas文件,xxx.ma,需要提前准备好,数据中需要包含列名:SNP,A1,A2,freq,b,se,p,n。

queried_probe

用于查询的探针,可以是mQTL、eQTL或者pQTL对应的探针。

queried_probe_wind

指定探针区域的范围。默认为500kb。

glist_path

用于绘图的参考基因数据地址,如glist-hg19

out_path

输出结果文件的地址

out_prefix

输出文件前缀

diff_freq

对等位基因频率进行质量控制,如果SNP的效应等位基因频率差异在两两配对的数据集中 (包括the LD reference sample, the eQTL summary data and the GWAS summary data) 的超过指定的差异阈值, 将排除该SNP。默认为0.2。

diff_freq_prop

SMR分析中,允许具有等位基因频率差异的的SNP的最大比例。如果由diff_freq排除的SNP比率大于diff_freq_prop指定的阈值,SMR分析将停止(提示错误信息)。默认值为0.05。

maf

根据参考样本中的次要等位基因频率 (MAF) 阈值去除 SNP,默认值为0。maf的取值范围在0-0.5。

smr_cis_wind

SMR分析中,定义一个以探针为中心的染色体范围,以选择cis-eQTL(通过p值阈值)进行SMR分析。默认值为 2000Kb。

smr_peqtl

SMR分析中,筛选用于SMR分析的top显著相关QTL(如eQTL)的p值,默认为5.0e-8。

smr_multi_snp

是否进行基于多个SNP的smr分析,默认为T。反之则使用top snp进行SMR分析。

smr_multi_set_wind

当smr_multi_snp=T的时候,选定基于多个snp进行SMR分析的基因区域,定义最显著cis-QTL为中心的染色体区域。 默认是选择smr_cis_wind内所有的snp进行SMR分析,默认为NULL。反之,可进行自己指定,如500kb,写作500。

smr_multi_ld_prune

当smr_multi_snp=T的时候,去除纳入SMR分析的QTLs(如eQTL)中存在连锁不平衡的QTLs,默认值是0.1。

heidi_method

HEIDI检验中,指定一个方法进行HEIDI检验。0是最初的原始HEIDI检验,由Zhu et al (2016 Nature Genetics)提出; 1是新的HEIDI检验,模拟结果表明,使用cis-eQTL区域中排名前20位的SNP(按照p值进行排序)进行异质性测试,HEIDI测试的功效最初增加,但随着SNP数量(m)的增加而降低,峰值在m = ~20。 默认值为 1。

heidi_peqtl

HEIDI检验中,筛选用于HEIDI检验的QTL的p值,默认p值为1.57e-3,相当于卡方值 (df=1) 10。

heidi_ld_upper_limit

HEIDI检验中,用于排除与top SNP存在显著连锁不平衡的QTL(如eQTL),默认值是0.9。

heidi_ld_lower_limit

HEIDI检验中,用于排除与top SNP不存在连锁不平衡或者微弱连锁不平衡的QTL(如eQTL),默认值是0.05。

heidi_min_m

HEIDI检验中,使用顺式snp数量的最小数量,小于该阈值将不进行HEIDI检验。因为如果SNP的数量太少,HEIDI测试检测异质性的能力很小,并可能产生误导性的结果。默认值为3。

heidi_max_m

HEIDI检验中,使用顺式snp数量的最大数量,如果经过LD筛选后的cis-SNP的数量大于m,则仅使用前m个SNP进行HEIDI检验(按照QTL的p值进行排序),默认值为20。

thread_num

指定用于并行计算的 OpenMP 线程数。默认值为 1。

to_genes

是否转基因名,默认T

ensembldb

使用基因名的版本库,默认hg38,可选hg37或hg38

结果数据,可用于下一步绘制散点图(smr_plot_effect)和染色体位置点图(smr_plot_locus)

Examples

smr_data <- smr_plot_prepare(
smr_exe_path = "./smr/smr-1.3.1-win.exe",
bfile = "./data/1kg.v3/EUR",
qtls_path = "./data/GTEx_V8_cis_eqtl_summary_lite/eQTL_besd_lite/Whole_Blood.lite",
gwas_path = "./data_prepare/ieu-a-7.ma",
queried_probe = "ENSG00000175445",
glist_path = "./data/glist-hg19",
out_path = "./"
)