sito
sito
sito
sito
sito
创建什么类型的训练数据集完全取决于想要用其执行的任务。机器学习,深度学习算法可以根据它们需要的数据类型大致分为三类:
1.监督学习
监督学习,最常见的类型,是一种机器学习算法,需要数据和相应的标注标签来训练。
像图像分类和图像分割这样的流行任务就属于这种模式,典型的训练程序包括向机器提供标注数据以帮助模型学习,并在未标注的数据上测试学习的模型,带有数据标签的数据集被称为训练集,而未带有数据标签的数据(未标注数据)则被称为测试集。
2.无监督学习
在无监督学习中,提供没有标注的输入数据,模型在没有数据标签的情况下进行训练。
常见的无监督训练算法包括自动编码器(autoencoders),其输出与输入相同。无监督学习方法还包括聚类算法,该算法将数据分为 "n "个聚类,"n "是一个超参数。
3.半监督学习
在半监督学习中,使用标注过的数据和原始数据的组合来训练模型,虽然这通过使用两种数据来减少数据标注的成本,但在训练时一般会对训练数据做出很多严格的假设。半监督学习的使用案例包括蛋白质序列分类和互联网内容分析。