家好,我是飞哥。
数据分析界育种知识最好、育种界编程最扎实、段子讲得最好的数据分析师,所以:编程+数据分析+育种,就是我的日常工作了。
电脑是研究生时学习的编程,之前没有接触过,计算机登记证书是一个没有,生物统计当年差点没及格,高数和线代还可以但是基本忘完了。就这样,经过金山打字半个月的训练,学会了盲打,研究生三年还是入门了生物信息的大门。
看一下我研究生的日常:(玉米地授粉往事序),数据分析+大田育种,实验是不可能做的,去实验室就是帮助大家装枪头。
上面这张照片是2015年元旦,海南玉米育种基地刚浇过水,那时上午已经有花粉散粉,二话不说,赤脚下地授粉。中间小李师傅帮我照相,因为我要发朋友圈纪念一下,还赋诗如下:“15有啥了不起,空间更新多如蚁,看我玉米地授粉,风和日丽元旦里”。那时的我,还未毕业,对未来充满憧憬,活力四射。
工作几年,边工作边学习,哪里不会学哪里,也积累了一些知识,接触的物种中有:玉米小麦水稻、猪鸡牛羊、林木水产,用到的模型从方差分析到线性模型,从混线模型到广义模型,从GWAS到GS,基本都是R语言+Python+Linux。
有些小伙伴,问我如何入门数据分析?
我的经验是,学习,从来不拘泥于形式,植物的不看动物的书籍?动物的不看林木的论文?林木的不理水产的成果,对我而言不存在的,因为物种是属于应用层,背后模型是类似的,学此可以懂彼。比如,学习GWAS我发现人类的知识更系统,于是学起来诸如多基因得分、孟德尔随机化也毫无违和感(统计遗传学:第八章,基因型数据质控)。
其实网络上的数据分析师都是从Excel到Python,然后到机器学习。而农业这一块,混合线性模型是绕不过去的槛,所以这里总结一下我的技能。
算不上技能树,只能算是花花草草:
结果报表及可视化
最大值、最小值、平均数、方差、标准差、变异系数等报表(支持分组)箱线图、直方图、折线图、小提琴图、雷达图等结果包括:方差分析表、多重比较结果、以及可视化
单因素方差分析多因素方差分析裂区试验方差分析裂裂区试验方差分析拉丁方和格子方方差分析结果包括:解释R2、拟合方程、模型比较,以及可视化
单变量回归分析多变量回归分析逐步回归回归分析曲线回归分析生长曲线回归分析结果包括:相关性值和显著性检验,可视化,通径分析的公式
相关性分析通径分析一年多点、多年多点数据分析,遗传力计算,BLUE值,BLUP值计算
基因与环境互作分析:AMMI模型,GGE Biplot模型,F-W回归模型
Alpha-lattice试验分析、增广试验分析
配合力分析:双列杂交,不完全双列杂交,NCII分析
空间分析
计算近交系数和亲缘关系系数
系谱可视化及系谱错误检测
单性状动物模型分析,遗传力,BLUP育种值
多性状动物模型,遗传力,遗传相关,BLUP育种值
阈值性状分析
重复力模型,母体效应模型
阈值与阈值多性状模型
阈值与连续多性状模型
结果包括:5层交叉验证的准确性和无偏性评估,重复20次。
基因型数据质控、填充
亲缘关系G矩阵、H矩阵构建及热图可视化
GBLUP,ssGBLUP模型(一步法)
贝叶斯类模型:BayesA,BayesB,BayesCpi,BayesLASSO
机器学习类:支持向量机、随机森林、神经网络、深度学习、函数回归
相关知识
我的业余爱好之养花
人不在家,花园里的花花草草怎么办?自动灌溉系统可以解决我的难题
全国高校专业介绍④丨农学专业
家庭花卉如何摆放 怎样摆放花花草草
博爱青春—农学园艺学院开展“拓花草之印,染自然之美”——植物拓印团扇DIY活动
清末到建国:中国园艺科技的发展
【花花草草】新入手花苗
【农学课件】十字花科蔬菜病害症状及病原物形态观察
2022农学考研:植物生理学精选名词解释(5)
2022农学考研:植物生理学精选问题题(15)
网址: 我的农学转数据分析之花花草草 https://m.huajiangbk.com/newsview105108.html
上一篇: 一般系统对于截词检索,使用*和? |
下一篇: 建立一个植物毒性分类器:数据准备 |