机器学习
步骤:
准备历史数据->创建模型并训练历史数据->新数据输入预测结果
机器学习的分类:
监督学习:数据带结果/标签
无监督学习:一大堆没有标签结果,让机器自行分类检测。
自监督学习:无需人工标注,通过数据本身结果生成伪标签或辅助任务(通常办法)
强化学习:不断尝试和环境互动得到的反馈改变行为做出最有决策AIRgo。
模型训练的3大阶段
1.预训练->海量无标注的文本,进行自监督学习。
2.SFT监督微调。->使用有标注的数据对基座模型进行微调,让模型能够适用特定任务,最终得到一个有偏好的模型。
3.RLHF强化学习,->基于人类反馈的期望进行学习(奖励模型)。
说些什么吧!