机器学习
步骤:
准备历史数据->创建模型并训练历史数据->新数据输入预测结果
机器学习的分类
- 监督学习:数据带结果/标签
- 无监督学习:一大堆没有标签结果,让机器自行分类检测。
- 自监督学习:无需人工标注,通过数据本身结果生成伪标签或辅助任务(通常办法)
- 强化学习:不断尝试和环境互动得到的反馈改变行为做出最有决策AIRgo。
模型训练的3大阶段
- 预训练->海量无标注的文本,进行自监督学习。
- SFT监督微调。->使用有标注的数据对基座模型进行微调,让模型能够适用特定任务,最终得到一个有偏好的模型。
- RLHF强化学习,->基于人类反馈的期望进行学习(奖励模型)。