deepseek专题
deepseek咨询
一篇文章,让你秒懂 DeepSeek 推理模型差异!
hg-DeepSeek-V3
Deepseek开源了从1.5B-671B的一系列模型。包括在Deepseek-v3基础上训练的Deepseek-R1,和只依赖RL训练的中间模型R1-zero。以及一系列基于Qwen和Llama模型,从Deepseek-R1蒸馏得到的小模型。这些模型在输出格式和输出质量上相比之前的开源模型(如Qwen团队的QwQ-32B)有显著改进。蒸馏模型包括基于Qwen2.5-math的1.5B和7B模型,基于Qwen2.5的14B和32B模型,基于Llama3系列的8B和70B模型。基本包括了目前稠密模型除3B级别外的所有主流尺寸。Deepseek-R1基本达到了OpenAI o1的水平,并且在部分领域领先。API成本低,并且模型权重开源。
模型Benchmark对比
以下Benchmark来自Deepseek-R1的官方技术报告,总的来说:DeepSeek-R1-Distill-Qwen-1.5B:基于Qwen2.5-math-1.5B训练,与更大型的模型相比仍有较大差距。可以在 ...
celery学习记录
[TOC]
Celery 中文手册
Celery配置及使用
一文读懂 Python 分布式任务队列 celery
celery 爬坑
基本概念Celery 是一个分布式任务队列,用于处理实时任务。这些任务可以在分布式系统中的多个 worker 上并发执行,使其非常适合于处理需要高并发和异步任务的应用程序,如 Web 服务、数据处理任务等。以下是 Celery 的基本介绍和使用指南:
Celery 的基本概念
任务(Task): Celery 的基本单位,是需要执行的函数或方法。任务可以是Python函数,经过装饰器转换后可以被 Celery 调度执行
队列(Queue): 使用消息队列来分发任务。常用的消息代理包括 RabbitMQ 和 Redis
Worker: Celery 的 worker 是负责执行队列中任务的进程。可以在多台机器上运行多个 worker,以提高并发能力
Broker(消息代理): 负责传递任务消息,是 Celery 和 worker 之间的中介。常用的 broker 有 Redis 和 RabbitMQ
Backend(结果存储): 可选组件,用 ...
实战:数据优化、多GPU加速与数值稳定性的最佳实践
概述等待…
实战dataset优化GPU使用率优化deepspeed多卡训练其他问题Nan识别与处理调优经验尽量复用已有的tensor 不要重复new出tensor
24年演讲材料
dc90f1df3b60080d2eb3dcafc02479661652d995cd5fc1f090a144fd679c247774a5c4ecd69ff755cf05b6ae4a0888eab659e2d40f81ce43d648f47840491387d53d7a2393c320527aff0303297756880e13d9f36a06dbae0dd698fc47aa7f7a074221c2f0d263aea5e801383dab6eb2e4e3be8aad10c69411c18a3a0c716a42094c5df822b3991b66c1e59cba9fdf04d1763f611dfc622385cd754c330392cc391ecd8153b7e70e3ae9976468cc2f6b0a6713f4e0a3894d08cccc42270b8a0260df3f4c4d8c0cb65b01566535eef7612b9c49c69d7ec139831e5757c5200e72d74323ce99278d8820298984394ecf89f994f861d33c398f7 ...
pytorch学习_进阶知识
pytorch中文文档
Tensortorch.Tensor是一种包含单一数据类型元素的多维矩阵
Torch定义了10种CPU tensor类型和GPU tensor类型:
Data type
dtype
CPU tensor
GPU tensor
32-bit floating point
torch.float32 or torch.float
torch.FloatTensor
torch.cuda.FloatTensor
64-bit floating point
torch.float64 or torch.double
torch.DoubleTensor
torch.cuda.DoubleTensor
16-bit floating point [1]
torch.float16 or torch.half
torch.HalfTensor
torch.cuda.HalfTensor
16-bit floating point [2]
torch.bfloat16
torch.BFloat16Tensor
torch.cuda.BFloat ...
LLM Tokenizer分词系列
tokenizer
hugging face Tokenizer文档
huggingface的分词器的摘要
【LLM系列之Tokenizer】如何科学地训练一个LLM分词器
概述文本分词的过程涉及将文本拆分成多个单词或子单词。接着,这些单词或子单词会被映射到特定的ID,转换过程涉及一个查找表,这是一种简单的对应关系
因此,我们的主要关注点在于解析文本为一系列的单词或子单词
更具体地说,我们将探讨🤗 Transformers库中常用的三种主要分词器类型:Byte-Pair Encoding (BPE)、WordPiece和SentencePiece,并且我们将提供实例说明哪种模型采用了哪种分词器
要了解特定预训练模型使用了哪种分词器,你可以参考每个模型主页上的文档说明,例如BertTokenizer,你会发现模型采用的是WordPiece分词器
分词例子将一段文本分词到小块是一个比它看起来更加困难的任务,并且有很多方式来实现分词,举个例子,让我们看看这个句子
1"Don't you love 🤗 Transformers? We sure do."
...
咕呱锻炼随笔
4607147b0a903f0f3382d056fda5e8e1331de1a117190adb97c315cbe95bf6d57c21957b63fc02117773afe4a51c81a4bfecb1f9e3f4f4f1da87f82a7cd8af8ded3d2ce85c1a81cd7edb675018d75fa42a12485a675c7e806b5a28c1179573c8b0b793e2006ef0b1ae180c34c8dab6d99406c2c0c41188b615a18c933268911efdebffb3928a15306fae9b8aafae42682b3c7884f06d0d9e8247eba7c4352b7a0c6f452d35d199f42932d5d45ebf6eb2744ed5178ef941c374f9836f3e5da1944d6d63e6906a12fbc22cd3fc3ec94a6ba37f5c6cd3fec3e7ee9e23b8584feafcb4b656c83c9909d17041964e0c15d3b46635e9c8f726f40a6 ...
机器学习_一元函数微积分(2)
6413a94e2cbbdfbf584bfad959c926efd3c8288bb8e221c8ccd0bf1c6e23ca904ee625b4797bb755049f8b518d6c721ea567b26049aeddf87fc5c3f23ff7dbbf0cccee00f71e0eaefc8f878f96fd82c3d96d34aab525a485e3cc64de2a83d93e05d83839d852521dc8d9181cae3f53abf28226f80252a87707cc126414738a16749ffad34beae5a148c2980a84460df0bf94211adff7d4e422906820d8cbd615cb419ae81c79deaac2de0af78910664811e4d875add999754101cb80bd4c0324674aad317437e784b324950730379b1c2337a549d015f01ad3a9909a80bdfffa901fd68606c73161fef9cbb73ec5d5170d06478471f2bce9d ...
机器学习_最优化方法(2)
6413a94e2cbbdfbf584bfad959c926ef0f8c951c4e7454a5c9686e1974d7abfca9907508558b652783ea891f0db53a3f60a0f836764a0b7cb1782f6c7f0763e0ae25cb87ff3837bd9f546198222146a515d3a2dd6f56d6d31ab8beaa7c7775689ae57b98b3fd0d5432e7f6494465693cd3f275888981c48366cd70480acc500044dc4dce37cd2d00911383115bcd7e2a4ed2469d2e5a6df64c817d64f28269ae6a62f0c292858ce7b850835d3746a431d4238d691765b8a22c2709402042f31a85d3a75dc9c3b3dc66316d637985ad14dea52109eeaf89a5cb099b841c9bd766553e7492f1788be525ec7c588de64abce4d6523e631ad43da ...
机器学习_概率论(2)
6413a94e2cbbdfbf584bfad959c926ef0f8c951c4e7454a5c9686e1974d7abfccc834bd071b7239e863879940bb028b682a1327134d0ecbef900db00faabc7cc45ee973d783f78821a25b822666c8d7d9ea28e502e012d75f9e9dc32afc8362061248179dc51a71e0574cfb8f4d813650f92554ee275877d05822dd4082e4a4a2ac81753cb9f5f8594bc3770fefb3bddc3aada97363130915c90bbf3467afcc2106b76bf6dd1020d60b41a24f6dfa314876b5376e50e289e17e973aa13e2593922656a280ddd2cbd4cb92c62f57d021f5e51a7334c23c30721d0113f135f5d652c43614ae014525604103064d9407ac8e5dae4001a8f8c179 ...