IWay -

Blog

AMD BC-250 SBC

AMD BC-250 also known as AMD 4700s. Features an AMD BC250 APU, codenamed ‘Ariel’, a cut-down variant of the APU in the PS5. It integrates 6x Zen 2 cores, at up to 3.49GHz (ish), as well as a 24CU RDNA2 Read more…

By Chris, 1 daySeptember 10, 2025 ago

Blog

AI的大模型训练和应用开发的几个主要领域

AI的大模型训练和应用开发分为几个主要领域： 1. 预训练 (Pre-training) ▪ 作用：这是AI模型的基石，通过“压缩”整个互联网数据，让模型学习并记住海量信息，从而决定模型的智能上限和基础能力。它定义了模型的架构（如Transformer、Attention、Encoder-Decoder），并在此阶段完成绝大部分算法层面的创新。 ▪ 人才需求：这一层主要由最顶级的AI研究员负责，他们通常需要博士学位和十年以上的深度学习、自然语言处理经验。这是一个“赢家通吃”的领域，全球只有少数大型实验室（如Google、Meta、Microsoft）和顶尖初创公司（如OpenAI、Anthropic、XAI）有能力进行基础大模型的预训练，投入巨大。 ▪ 市场价值：对应着最高的薪酬，可达数千万美元年薪。 ▪ 转型建议：对普通程序员而言，直接进入这一层难度极大，不建议作为主要转型方向。 2. 后训练 (Post-training) ▪ 作用：在预训练模型的基础上，进行与人类偏好对齐的训练，使其适应特定的应用场景（如法律、数学、编程）。这包括强化学习与人类反馈对齐 (RLHF)、自学习（如教师模型教学生模型）等新方法，以使模型输出更符合人类预期和情感需求。 ▪ 人才需求：这一层有大量的工程性问题。对于具备分布式系统经验或数据管道 (data pipeline) 经验的程序员，可以在训练框架开发等方向找到机会。 ▪ 市场价值：薪酬潜力与模型服务层相似，可达百万美元年薪。 ▪ 转型建议：这是一个有明确机会的转型方向，尤其是对于有强大分布式系统经验的程序员。 3. 模型服务 (Model Serving) ▪ Read more…

By Chris, 2 weeksAugust 25, 2025 ago

Blog

Install Ubuntu 25.04 and llama.cpp on Dell G5 SE 5505

the Dell G5 SE 5505 laptop has AMD Ryzen 5 4600H CPU with 6 cores, 8GB RAM and a AMD RX 5600m GPU.

By Chris, 2 weeksAugust 25, 2025 ago

Blog

Proxmox VE 服务器集群

将多个单独的 Proxmox VE 服务器集成到一个集群中，以实现资源共享、集中管理和高可用性等功能。以下是一个简要的指南，说明如何将两台独立的 Proxmox 服务器整合成一个集群：前提条件如有需要，更新到最新版本：集成步骤注意事项合并现有集群的情况如果两台服务器各自运行独立的 Proxmox 集群（而非单机），直接合并两个集群较为复杂，通常需要：具体步骤可参考 Proxmox 官方论坛的讨论。总结通过以上步骤，你可以将两台独立的 Proxmox 服务器整合成一个集群，实现资源共享和管理集中化。如果需要高可用性，建议配置共享存储并至少使用 3 个节点以提高稳定性。更多详细信息可参考 Proxmox 官方文档或相关教程。

By Chris, 4 weeksAugust 16, 2025 ago

Blog

BLAS and BLIS

BLAS 和 BLIS 都是用于科学计算中的线性代数库，专注于加速矩阵和向量运算。以下是它们的含义和区别： BLAS (Basic Linear Algebra Subprograms) BLIS (BLAS-like Library Instantiation Software) BLAS vs. BLIS 总结 BLAS 是经典的线性代数标准库，历史悠久但接口较老旧；BLIS 是其现代替代品，提供更高灵活性和性能，特别适合需要扩展功能或跨平台开发的场景。两者在科学计算中都至关重要，BLIS 被认为是未来趋势。

By Chris, 4 weeksAugust 15, 2025 ago

Blog

什么是GEMM

在人工智能中，GEMM 是 General Matrix Multiply（通用矩阵乘法）的缩写，指的是一种高效的矩阵乘法运算，通常表示为 C = αAB + βC，其中： GEMM 在人工智能中的重要性 GEMM 是深度学习和人工智能计算的核心操作之一，尤其在以下场景中广泛使用： GEMM 的优化由于 GEMM 是 AI 计算的瓶颈之一，优化其性能对加速深度学习模型至关重要。常见的优化方式包括： GEMM 的数学表示 GEMM 的通用形式为：[ C = \alpha \cdot (A \cdot B) + \beta \cdot C ]其中：例如，若 ( \alpha Read more…

By Chris, 4 weeksAugust 15, 2025 ago

Blog

FlashAttention

FlashAttention 是一种高效的注意力机制优化算法，旨在降低 Transformer 模型在处理长序列时的计算和内存开销。它由斯坦福大学的研究者提出，最初在 2022 年的论文《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Aware Optimization》中介绍，主要针对 GPU 加速的深度学习任务。核心思想传统的注意力机制（Attention）在处理长序列时需要存储和操作大规模的中间矩阵（如查询-键相似度矩阵），这会导致内存占用高、计算效率低的问题。FlashAttention 通过以下方式优化：工作原理 FlashAttention 基于以下步骤：优势应用场景 FlashAttention 广泛用于需要处理长序列的 NLP 和 CV 任务，例如：局限性后续发展 FlashAttention 的成功启发了后续工作，如 FlashAttention-2，进一步优化了并行性和内存分配，性能更优。此外，它已被集成到许多深度学习框架（如 PyTorch、Hugging Face Transformers）中，方便开发者直接使用。总结来说，FlashAttention 是一种革命性的注意力机制优化方案，通过分块计算和 Read more…

By Chris, 4 weeksAugust 15, 2025 ago

Blog

AI模型从无到有的建立过程

AI模型从无到有的建立过程构建一个AI模型（这里主要指机器学习模型，如神经网络模型）是一个系统工程，通常遵循CRISP-DM（Cross-Industry Standard Process for Data Mining）或类似流程。从无到有，大致可以分为几个关键阶段：问题定义、数据准备、模型设计、训练与评估、调优、部署以及维护。下面我将详细讲解每个过程，包括所需数据、使用工具和原理。整个过程可能因具体任务（如分类、回归、生成式AI）而略有差异，但核心逻辑相似。以一个图像分类模型（如识别猫狗）为例进行说明。 1. 问题定义和规划（Problem Definition and Planning） 2. 数据收集和准备（Data Collection and Preparation） 3. 特征工程（Feature Engineering） 4. 模型选择和设计（Model Selection and Design） 5. 模型训练（Model Training） 6. 模型评估（Model Evaluation） 7. 模型调优（Model Tuning） 8. 模型部署（Model Deployment） 9. 监控和维护（Monitoring and Read more…

By Chris, 4 weeksAugust 14, 2025 ago

Blog

Transformer中的层和参数

在 Transformer 模型中，层（layers）和参数（parameters）密切相关：每一层都包含大量的可学习参数，模型的总参数量基本上就是所有层中参数的总和。下面我们详细解释它们之间的关系。一、Transformer 的基本结构回顾一个标准的 Transformer 模型（如原始论文《Attention is All You Need》中的架构）由以下主要组件构成：编码器（Encoder）：由多个相同的层堆叠而成（如6层）解码器（Decoder）：也由多个相同层堆叠而成（如6层）每一层（无论是编码器还是解码器）都包含若干子层，每个子层内部都有可学习的参数。二、Transformer 层的组成（以编码器层为例）每个编码器层包含两个主要子层：多头自注意力机制（Multi-Head Self-Attention）前馈神经网络（Feed-Forward Network, FFN）每个子层后都有：层归一化（LayerNorm）——有少量参数残差连接（Residual Connection）——无参数假设：输入维度：d(model)=512注意力头数：h=8每个头的维度：d(k)=d(v)=d(model)/h=64那么，多头注意力包含以下可学习权重矩阵： WQ∈Rdmodel×dmodel WK∈Rdmodel×dmodel WV∈Rdmodel×dmodel WO∈Rdmodel×dmodel （输出投影）👉 这4个矩阵每个都有 512×512=262,144 个参数所以总参数量：4×262,144=1,048,576 ≈ 105万注意：虽然叫“多头”，但这些权重通常是整体实现的，不是每个头单独一个矩阵。第一层：dmodel→dff（如 512 → Read more…

By Chris, 4 weeksAugust 14, 2025 ago

Blog

中国虎符式教育

转载自云中月虎符式教学五十年你知道虎符吗？在秦汉的时候，调兵可不是嘴上吆喝两句那么随意的事。中央要发兵，得掏出一块虎符，劈成两半：一半留在朝廷，一半交给驻地将军。两半合起来，才能呼风唤雨；缺一块，你连一个伙夫都调不走。两千年后，这种虎符精神，在中国的中小学教育里，被精心发扬光大。中国式虎符教育：一讲就懂，不讲不懂中国课堂的核心，其实就是一套现代版虎符制度：学生手里那本课本，是明面的一半虎符；另一半虎符，叫“教师教学参考书”，藏在老师手里。这个大名鼎鼎的“教参”堪称中国教育的独门秘籍：每本教参都有ISBN编号，但却不是你能在新华书店随便买到的“凡间货色”。它通过教育部门的行政体系，一级级配发到老师手里，学生连边都摸不着。设计初衷非常简单直接：“一讲就懂，不讲不懂”：课本给你半拉子知识，教参才是解锁真相的钥匙。老师靠着它在课堂上点石成金，稳稳端住“师道尊严”的牌子。普通学生不听课，想靠课本自学，那就等着云里雾里吧。所以，中国教育改革这些年来，看似热闹非凡，其实绕来绕去，都在围绕一个核心问题打转：这另一半虎符，到底该怎么处理？第一击：重点班的“超级虎符” 最早的冲击，来自重点班。重点班的老师，不光有那半本官方教参，他们脑子里还有一套比教参还厉害的“超级虎符”，多年教龄、刷题经验和暗号式讲解。只要用这些暗号去匹配课本，学生立刻如虎添翼。普通班的学生也有课本，却像骑着毛驴追高铁。这第一次冲击，让人意识到：虎符虽然是制度统一发的，但解读力可以私有化，且明显分层。第二击：课堂只讲一半，课后讲一半 2000年代初，出现了更具破坏力的补课风潮。老师们发现，课堂讲一半，课后收费讲另一半，是个稳赚不赔的生意：课本：学生人手一本，废话多到看吐；课堂：讲得云里雾里，点到即止；补课：真相大白！代价是每小时200元起步。北京某名师，一节课补课费能顶一个月工资，家长还得排队抢名额。知识被切片出售，解释权悄悄进了老师的私人口袋。这等于老师亲手把自己的虎符掰成了两段：课堂发一截，还有一截留着课外班出示。第三击：课件商人盗虎符接下来登场的是课件和教学软件商人。他们像文物贩子一样，把名师的“超虎符”精华收集起来，浓缩成多媒体课件、光盘、PPT…… 再明码标价卖给家长和学生。B站五分钟搞定高考作文，公众号疯狂推送押题文档，抖音算法推送“秒懂知识点”的短视频。很多人买到手兴奋地说：“没想到这就是虎符的另一半！” 从此，虎符不再只在老师手里，商人也能卖，流量也能赚。讲课比拼的已经不是谁懂，而是谁剪得更爽、谁标题党写得更狠。第四击：K12初创公司“虎符批发” 2010年前后，资本嗅到了讲解权的金光。学而思、新东方、猿辅导、作业帮，这些K12初创公司干脆把课外辅导做成了标准化业务，批量化生产另一半虎符。语文讲解、奥数套路、英语模板被打包成流水线产品，精准推送，疯狂吸金。 2020年，教培市场规模飙到2万亿，学而思年营收轻松破百亿。这已经不是偶尔偷讲一题两题，而是整半块虎符做成量产模型，在资本市场挂牌销售。教育部门急了：你们这不是讲得好，你们是讲得太对了——直接动了正统的饭碗。于是2021年，“双减”重拳出击，教培行业千亿市值灰飞烟灭，虎符貌似重回“体制神职人员”手里。但，战火哪有这么容易熄？第五击：人工智能AI的万能虎符压轴登场的是人工智能。 2023年以后，国产AI大模型杀入战场，DeepSeek、Kimi、智谱清言不再是查答案的工具，而是能讲、能答、能演示的全能老师。你只需丢进去一道题，它立刻化身良师益友：哪个知识点考到了？哪个选项是坑？命题人想干啥？ Read more…

By Chris, 1 monthAugust 12, 2025 ago