阅读 140

【GS文献】植物全基因组选择育种技术原理与研究进展

1. 优势杂交育种预测

  • 杂交育种:选育优良纯合亲本,再进行亲本配组。
  • 杂种优势与亲本间的遗传差异有关,前人通过遗传标记计算亲本间的遗传距离。但遗传距离和杂种优势的相关性只能在一定程度上定性地评价杂交组合的表现,并不能定量地预测表现。
  • 从利用遗传标记的QTL到早期家畜的BLUP方法,GS应用初具雏形,但通过遗传系谱图构建的亲缘关系矩阵预测能力有限。
  • 高密度SNP标记计算遗传关系矩阵来估算个体育种值。

2. GS育种原理与模型算法

  • GS原理:
image.png

所有的GS模型都聚焦在如何准确估计β(标记效应)上。

  • 过拟合的缺陷:即再训练群体中构建的模型再测试群体中的预测效果不佳。一般用交叉验证来对模型进行评估。
  • 维数灾难:如果通过常规的最小二乘法利用线性拟合估计育种值,通常会因为分子标记间的多重共线性问题使模型失去预测能力。
  • 不同预测算法从变量选择、降维和系数压缩等方法进行建模,来提升模型的预测能力。

岭回归和LASSO回归

  • 岭回归(Ridge regression,RR):在最小二乘法的误差平方和最小的基础上,对系数进行限制,使离差平方和最小,同时使随机效应向量(β系数)的平方和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
  • 另一个理解:岭回归在最小二乘法的离差平方和最小的原则上,引入了一个惩罚项。
  • LASSO回归是另一种方式的压缩,使离差平方和最小,同时使随机效应向量(β系数)的绝对值之和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
  • RR属于L2正则化(对所有的β进行约束,建模后保留所有预测因子),LASSO属于L1正则化(一定约束条件下会将某些预测因子系数压缩为0,从而达到变量选择的目的)。
  • 当有效预测因子很多但贡献值都较小时,RR预测效果较好; 当有效预测因子较少且有效因子贡献值都较高时,LASSO预测效果好。

贝叶斯方法

  • 不同于传统拟合方法,贝叶斯方法一般会根据经验给出βj的先验密度,再通过先验密度和似然函数求解βj的后验概率。
  • 公式及参数:
image.png
  • 固定效应:βjk服从扁平先验(即不提供任何先验信息)。
  • BRR:贝叶斯岭回归,βjk服从高斯先验(即βj服从正态分布)。
  • Bayesian LASSO:βjk服从双指数先验分布。
  • BayesA:βjk服从scaled-t先验分布。它和Bayesian LASSO认为只有少数因子有比较显著的效应。
  • BayesB和C:βjk的先验分布属于混合分布,假设有大量的βj为0,与scaled-t先验分布混合为BayesB,与高斯先验分布混合为BayesC。
  • 贝叶斯模型的运算时间与迭代次数有关。

GBLUP和RRBLUP

  • GBLUP公式:
image.png

image.png
  • RRBLUP公式:
image.png
  • 通过标记效应和个体育种值预测杂交后代的表现结果是等价的。这两个模型适合大规模建模和预测分析。

偏最小二乘法

  • PLS:首先在预测因子中进行特征提取,然后进行最小二乘法线性拟合运算。
  • 涉及到矩阵运算,再分子标记数量较多时对计算力要求很高,运行时间长,不适合高密度SNP建模预测。

支持向量机/支持向量回归

  • SVM:为提高分类器稳定性,避免个别个体的变化对分类结果产生剧烈影响,通常会给与分类器一定数量的容错率和相应的罚分。
  • 通过交叉验证确定容错率和罚分的最佳参数。
  • SVM的优化与观测点的内积有关,可用不同的核函数来表示内积,如线性核函数、多项式核函数、径向核函数等。
  • 支持向量回归SVR在动植物育种预测应用广泛。
  • SVM用于GS建模一般易出现过拟合,不太适合做预测,可与其他模型一起作为参考。

其他方法

  • 维数诅咒:引入模型的预测因子(SNP标记)越多,模型解释能力越强,但预测能力会下降。所有预测方法都围绕提升模型预测能力展开。
  • 随机森林/变量选择等方法运算量大,只适用于预测因子数量较少的情况。

3. 模型预测能力验证

  • 交叉验证:留一法,K折交叉验证。
  • 模型预测能力的评估:计算均方误差,观测值与预测值的相关系数。

4. 局限性

基于数学建模的杂交种预测的一些假设:

  • 不论是双亲群体的衍生群体(重组自交系间杂交组合还是单交群体(包括双列杂交和NCII等);
  • 每个杂交组合的双亲的所有等位基因都是纯合的;
  • 每个等位基因位点都是双等位基因,如果有极小比例的其他类型的等位基因,该位点会被主要等位基因覆盖;
  • 杂交组合的基因型由双亲的基因型推导而来;
    不考虑反交效应。

影响因素

  • 控制数量性状的QTL分布情况
  • 训练群体大小和选择
  • 遗传力
  • 表型准确性
  • SNP标记密度和标记间LD效应

5. 展望

  • 基于数量性状由多基因控制,受环境影响大的特点,GS在确定预测因子时可将环境因子作为固定效应,评估其方差组分,预测时可将环境因子考虑进来,提供模型的预测能力。
  • 除了基因组的分子标记,转录组、代谢组数据都可作为预测因子,进行建模预测。

参考文献:
刘策, 孟焕文, 程智慧. 植物全基因组选择育种技术原理与研究进展. 分子植物育种, 2020 年,第18 卷,第16 期,第5335 - 5342 页.
西北农林科技大学园艺学院

作者:bioin

原文链接:https://www.jianshu.com/p/50384e30dcce

文章分类
后端
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐