年轻人起来冲

Non-local

发表于 2024-08-27 更新于 2025-03-01 分类于 2-深度学习， B-视觉模型， 1-基础视觉任务CNN ，语义分割本文字数： 2.7k 阅读时长 ≈ 2 分钟

受到计算机视觉的 Non-local means (NLM) 的影响，Non-local 提出 Non-local operations，用于捕获长距离的关系，提升了语义分割的效果

阅读全文 »

大模型初次使用

发表于 2024-08-26 更新于 2025-02-15 分类于 2-深度学习， LLM开发工程师指南本文字数： 3.9k 阅读时长 ≈ 4 分钟

大模型通常指在大规模数据上训练的机器学习或深度学习模型，这些模型有大量的参数，能够捕抓复杂的数据模式及关系。对于应用开发人员来说，虽然不是严格定义，但是对于规模超过 1 B 的模型称为大模型，1 B 表示十亿。

阅读全文 »

大模型参数设置

发表于 2024-08-26 更新于 2025-02-02 分类于 2-深度学习， LLM开发工程师指南本文字数： 5.1k 阅读时长 ≈ 5 分钟

在使用 transformer 类模型预测时，是逐位输出 token，输出完整的回答的过程，是 transformer 的解码策略。

阅读全文 »

transformer：Attention Is All You Need

发表于 2024-07-16 更新于 2025-02-07 分类于 2-深度学习， C-语言模型， 4-语言大模型LLM 本文字数： 12k 阅读时长 ≈ 10 分钟

为了解决 RNN 在序列数据上感受野不足和无法并行训练的问题的问题，Transformer 被提出。Transformer 由且仅由 self-Attenion 和 Feed Forward Neural Network 组成，训练时一次输入所有时间步，构建所有时间步之间的注意力，不用考虑方向，不考虑长度

阅读全文 »