«««< Updated upstream
title: ‘机器学习’ categories: [“技术”] date: 2025-11-20T15:58:13+00:00 lastmod: 2025-11-20T15:58:13+00:00
机器学习
机器学习
Stashed changes
步骤:
准备历史数据->创建模型并训练历史数据->新数据输入预测结果
机器学习的分类
监督学习:数据带结果/标签
无监督学习:一大堆没有标签结果,让机器自行分类检测。
自监督学习:无需人工标注,通过数据本身结果生成伪标签或辅助任务(通常办法)
强化学习:不断尝试和环境互动得到的反馈改变行为做出最有决策AIRgo。
模型训练的3大阶段
预训练->海量无标注的文本,进行自监督学习。
SFT监督微调。->使用有标注的数据对基座模型进行微调,让模型能够适用特定任务,最终得到一个有偏好的模型。
RLHF强化学习,->基于人类反馈的期望进行学习(奖励模型)。


说些什么吧!