机器学习

步骤:

准备历史数据->创建模型并训练历史数据->新数据输入预测结果

机器学习的分类

  • 监督学习:数据带结果/标签
  • 无监督学习:一大堆没有标签结果,让机器自行分类检测。
  • 自监督学习:无需人工标注,通过数据本身结果生成伪标签或辅助任务(通常办法)
  • 强化学习:不断尝试和环境互动得到的反馈改变行为做出最有决策AIRgo。

模型训练的3大阶段

  1. 预训练->海量无标注的文本,进行自监督学习。
  2. SFT监督微调。->使用有标注的数据对基座模型进行微调,让模型能够适用特定任务,最终得到一个有偏好的模型。
  3. RLHF强化学习,->基于人类反馈的期望进行学习(奖励模型)。