Home » Post.backups

机器学习

2025-09-19 · 1 min · 285 words · 新人类

Table of Contents

机器学习

步骤：

准备历史数据->创建模型并训练历史数据->新数据输入预测结果

机器学习的分类

监督学习：数据带结果/标签
无监督学习：一大堆没有标签结果，让机器自行分类检测。
自监督学习：无需人工标注，通过数据本身结果生成伪标签或辅助任务(通常办法)
强化学习：不断尝试和环境互动得到的反馈改变行为做出最有决策AIRgo。

模型训练的3大阶段

预训练->海量无标注的文本，进行自监督学习。
SFT监督微调。->使用有标注的数据对基座模型进行微调，让模型能够适用特定任务，最终得到一个有偏好的模型。
RLHF强化学习，->基于人类反馈的期望进行学习(奖励模型)。