About 68,800,000 results
Open links in new tab
  1. Tete - 知乎

    Oct 7, 2025 · 因为理论和实验上Softmax Attention的Attention Weight刚好可以被完美分解为一个很高稀疏度的,但Rank很高的矩阵,和一个非常不稀疏,但是Rank很低的矩阵(链接 中分析的)。这样完美 …

  2. 强化学习奖励函数设计有没有什么经验之谈? - 知乎

    主要是把任务拆分成一些基础的逻辑模块,每一部都需要有一个dense reward来引导,当然这种适用于random policy的,如果你有一个很好的pretrain policy,可以拿到一定成功率的话,可以直接搞阶段性 …

  3. 矩阵低秩的意义? - 知乎

    矩阵低秩的意义? 最近在看low-rank,sparse在图像处理中的应用,不理解low-rank的意 关注者 538 被浏览

  4. 稀疏矩阵的LU分解方法 - 知乎

    什么是稀疏矩阵? 稀疏矩阵 (Sparse Matrix)是指大部分元素为零的矩阵 (相比之下,矩阵中大多数元素非零的矩阵称为稠密矩阵 (Dense Matrix)),其可视化如图1 [1]所示。 稀疏矩阵的存储格式 对于稠密矩 …

  5. DeepSeek-V3.2-Exp 和 Qwen3-Next 哪个才是未来? - 知乎

    对于(1)来说,dynamic sparse attention就是一个比较promising来解的方向,代表工作包括不限于Native Sparse Attention(NSA),MOBA,以及DeepSeek-V3.2-Exp里面的Deepseek Sparse …

  6. DeepSeek-V3.2-Exp版本更新,有哪些信息值得关注? - 知乎

    DeepSeek V3.2,可以说是算法同学最想要、最符合直觉的top 2048 token的sparse attention了,然而,经历过这场适配才能知道,背后有多少infra的坑要踩。

  7. 哪里有标准的机器学习术语 (翻译)对照表? - 知乎

    学习机器学习时的困惑,“认字不识字”。很多中文翻译的术语不知其意,如Pooling,似乎90%的书都翻译为“…

  8. 请问用ansys里的mesh划分网格报错是为什么? - 知乎

    May 9, 2022 · 10、There is not enough memory for the Sparse Matrix solver to proceed。 没有足够的内存供稀疏矩阵求解器继续。 内存不足,增加物理内存、虚拟内存、简化模型、减少网格数量等方式 …

  9. vulkan中的sparse resource支持 - 知乎

    说回sparse residency,sparse residency的buffer除了不需要全部驻留外,与仅仅sparse binding的buffer别无二致。 绑定时候的对齐和粒度条件也一模一样,由alignment决定。 buffer是否支持sparse …

  10. SmartMindAI 的想法: 太牛了!稀疏注意力加速神器:SeerAttention-R

    太牛了!稀疏注意力加速神器:SeerAttention-R | 今天来给大家分享一篇SeerAttention-R:面向长推理的稀疏注意力框架。💥核心创新点1. 给大模型加"智能眼睛"!不改动原模型参数,用轻量级门控模块学会 …