[隐藏左侧目录栏][显示左侧目录栏]
LLM 常规技术
prompt工程
GPT2模型结构
QKV向量各自的作用
KVCache
SwiGLU
MHA和MQA和GQA
LoRA
混合专家模型MoE
旋转位置编码RoPE
LLM 模型训练
self instruct
PaLM-E
LIMA
LLaMA
LLaMA2
WizardLM
WizardCoder
RAIN
The False Promise of Imitating Proprietary LLMs
Large Language Models are not Fair Evaluators
LLM Agent
LLM 工程
模型参数量分析
静态显存分析
中间激活值显存分析
计算量分析
ParameterServer
Megatron
ZeRO
hf-mirror之模型下载
Deepspeed
RLHF 及各种变体
强化学习简介
马尔可夫决策过程
蒙特卡洛法估计价值函数
时序差分法估计价值函数
PolicyGradient
PPO
Q-learning
Actor Critic
deep learning 基础技术体系
KL散度
分类任务损失函数的原理
Softmax函数求导
二分类交叉熵损失求导
多分类交叉熵损失求导
均方差损失与交叉熵损失异同
将softmax+交叉熵推广到多标签分类问题
激活函数
优化器
L1和L2正则化
正则化综述
batch normalize
layer normalize
prenorm_vs_postnorm
对抗训练
评估指标
几种tokenize策略
几种mask策略
生成式任务解码
LSTM
attention
Transformer
GPT
ALBERT
RoBERTa
实体关系抽取之tplinker
Defusion Model 基础技术体系
图像与视频相关技术
From here you can search these documents. Enter your search terms below.