归档
/
37 篇文章
· 3 年
暂无匹配文章
2026
33 篇文章
06-09
Guest Lecture:Dan Fu - LLM 推理系统从零构建
#LLM Inference #KV Cache #Megakernel #Continuous Batching #循环Transformer
06-04
FlashAttention
#FlashAttention #Transformer #GPU #CUDA
06-04
Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective
#SFT #LLM #Explainability
06-03
Lecture 17:多模态模型
#Multimodal #CLIP #VLM
06-03
train-llm-from-scratch
#LLM #Transformer
06-01
最优化理论与算法:基础课程笔记
06-01
第一章:基础理论
06-01
第二章:算子理论与不动点
06-01
第三章:梯度下降与线搜索
06-01
第四章:投影梯度法
06-01
第五章:邻近算法
06-01
第六章:对偶方法与 ADMM
05-30
监督信号的粒度与训练效率
#LLM #RL #Information-Theory
05-29
Lecture 16:RLVR 与推理模型
#Post-Training #RL #GRPO
05-27
CS336: Language Modeling from Scratch (Spring 2026)
05-27
Lecture 15:中训练与后训练
#Post-Training #RL
05-25
强化学习算法梳理:从 PPO 到 GRPO 及之后
#RL #GRPO #LLM
05-22
Lecture 14:数据处理与数据混合
#LLM
05-20
Lecture 13:数据来源与数据集
#Data #Pre-Training
05-15
Lecture 12:评估
#Evaluation #Benchmark
05-13
Lecture 11:Scaling Laws 实战
#Scaling Laws
05-08
Lecture 10:推理优化
#LLM #Inference #KV Cache #Quantization
05-06
Lecture 9:Scaling Laws
#Scaling Laws
05-01
Lecture 8:从 DDP 到 4D 并行
#Distributed Training #MoE
04-29
Lecture 7:分布式并行训练基础
#Distributed Training
04-24
Lecture 6:GPU Kernel 编程与 Triton 实战
#GPU Kernel #Triton #CUDA
04-22
Lecture 5:GPU 与 TPU 硬件原理
#GPU #Flash Attention
04-17
Lecture 4:注意力替代方案与混合专家模型
#Attention #State Space Models #MoE
04-15
Lecture 3:Transformer 架构
#Transformer #Attention
04-10
Lecture 2:PyTorch、einops 与资源核算
#LLM #GPU
04-08
Lecture 1:概览与分词
#Transformer #Tokenization #Scaling Laws
03-15
LLM 深度解析:从后训练到 Agent 时代
#LLM #Post-Training #RL
01-28
大模型训练、推理、Infra 概览
#LLM #Distributed Training #Inference #GPU #MoE
2024
1 篇文章
12-27
Linux配置
#Linux
© 2026 xwysyy. All Rights Reserved.