这一篇与[day 26]的差异是,我们对於对於训练模型上参数的调整。
可以先看一下原始资料集,是之前的kaggle比赛:
https://www.kaggle.com/c/stanford-covid-vaccine/data
主要是想预测对於不同的mRNA片段在不同环境之下裂解的程度(酸硷度PH10或是50℃ 各自有没有加镁离子的情况)。
原始资料还需要考量到mRNA片段结构上的影响,处理起来相对较复杂。
而这里我们使用QLattice官网教学提供的简化资料集,
只需要考量不同核苷酸的比例以及各自配对的数量,
来试着预测mRNA片段在酸硷度PH10加入镁离子的裂解程度。
https://docs.abzu.ai/docs/tutorials/archive/covid_simple.html
安装及载入套件:
可以先看一下资料结构,
A、G、C、U为mRNA构成的四种核甘酸,
核甘酸与核甘酸键结有U-G、C-G、U-A、G-C、A-U、G-U这几种情况,
pairs_rate代表了有配对的核甘酸比例,
而mean_deg_Mg_pH10为要预测的标签 mRNA的裂解程度。
mRNA结构示意图
资料来源:
https://courses.lumenlearning.com/microbiology/chapter/structure-and-function-of-rna/
切分训练集、测试集、验证集:
我们使用预设的参数开始训练:
我们可以查看训练出的最佳模型:
接着我们更改参数
max_complexity: 模型的复杂程度,用4或5可以生成树状结构较简单的模型,
10以上的话会生成较复杂的模型。
n_epochs: 迭代次数,预设是10,越高代表生成模型及淘汰模型次数变高。
criterion: 拟合优化标准有Akaike’s Information Criteria及Bayesian Information Criteria及不选的预 设参数的这几种选择(有兴趣可以自行调查他们之间的差异),参数名称分别为'aic'、'bic',或是不给这个参数。
starting_models: 将预设参数训练完成的模型,接续着训练。
我们可以查看训练出的模型,分支变少了:
可以发现影响mRNA会不会裂解最主要的因素为核甘酸A、U的比例及核甘酸配对比例。
前一章稍微介绍了k9s的功能,得知我们可以使用它来操作一些需要使用kubectl的功能,目前介绍了取...
最近在写专题,遇到了一些困难,需要写出一个网页,网页的卷轴可以控制太阳系的星系转动(同时),请问该如...
今天要来简单的实做星星评分的功能 在这项单元内也会简单的讲解到props与$emit的传递 先附上成...
React Native 我的安装步骤: Node.js,我使用 Homebrew 来安装,所以会先...
前言: PHP(Hypertext Preprocessor)作为网页开发的先驱,可是不知道是因为...