时间:2025-05-26    来源:网络转载

sansa2025 sansa2025
9
2025-08-14
  每日财经(Mrcj88.cn)讯:   6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是完整地将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是支持用单台4090服务器推理的开源千亿MoE大模型。   基于目前各大主流模型评测榜单进行评测,在相同的激活参数量20B(推理计算量)下,Skywork-MoE能力接近70B的Dense模型,使得模型的推理成本有近3倍的下降。同时Skywork-MoE的总参数大小比DeepSeekV2的总参数大小要小1/3,用更小的参数规模做到了相近的能力。

  每日财经(Mrcj88.cn)讯:

时间:2025-05-26    来源:网络转载
(图片来源网络,侵删)

  6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是完整地将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是支持用单台4090服务器推理的开源千亿MoE大模型。

  基于目前各大主流模型评测榜单进行评测,在相同的激活参数量20B(推理计算量)下,Skywork-MoE能力接近70B的Dense模型,使得模型的推理成本有近3倍的下降。同时Skywork-MoE的总参数大小比DeepSeekV2的总参数大小要小1/3,用更小的参数规模做到了相近的能力。

时间:2025-05-26    来源:网络转载
(图片来源网络,侵删)

  为了解决MoE模型训练困难,泛化性能差的问题,Skywork-MoE设计了两种训练优化算法。Skywork-MoE模型在GatingLayer的token分发逻辑处新增了一个normalization操作,使得GatingLayer的参数学习更加趋向于被选中的top-2experts,增加MoE模型对于top-2的置信度。其次,有别于传统的固定系数(固定超参)的auxloss,Skywork-MoE模型在MoE训练的不同阶段让模型自适应地选择合适的auxloss超参系数,提升模型整体的性能和泛化水平。

  同时,在MoE模型高效地进行大规模分布式训练方面,Skywork-MoE提出了两个重要的并行优化设计,在千卡集群上实现了MFU38%的训练吞吐。首先,Skywork-MoE提出了一种称之为“ExpertDataParallel”的并行设计方案。这种并行方案可以在Expert数量较小时仍能高效的切分模型,对Expert引入的all2all通信也可以最大程度的优化和掩盖。相较于EP对GPU数量的限制和ETP在千卡集群上的低效,EDP可以较好的解决大规模分布式训练MoE的并行痛点。同时,EDP的设计简单、鲁棒、易扩展,可以较快的实现和验证。

  其次,针对流水并行下均匀切分Layer时的各stage计算负载和显存负载的不均衡情况,Skywork-MoE提出了非均匀的流水并行切分和重计算Layer分配方式,使得总体的计算/显存负载更均衡,约有10%的端到端训练吞吐提升。

  此外,Skywork-MoE还通过一系列基于ScalingLaws的实验,探究哪些约束会影响Upcycling和FromScratch训练MoE模型的好坏。Skywork-MoE认为,如果训练MoE模型的FLOPs是训练Dense模型的2倍以上,那么选择fromScratch训练MoE会更好,否则的话,选择Upcycling训练MoE可以明显减少训练成本。

  本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。天工3.0还训练了75B(Skywork-MoE-Small)和400B(Skywork-MoE-Large)两档MoE模型,并不在此次开源之列。

  开源的Skywork-MoE模型、技术报告和相关的实验结果可以给开源社区贡献更多的MoE训练经验和Know-how,包括模型结构、超参选择、训练技巧、训练推理加速等各方面,探索用更低的训练推理成本训练更大更强的模型,在通往AGI的道路上贡献一点力量。(李记)

其他相关 RELEVANT MATERIAL
时间:2022-01-25    来源:网络转载

时间:2022-01-25    来源:网络转载

sansa2025 sansa2025
16
2025-08-14
  每日财经(Mrcj88.cn)讯:   12月30日,一汽-大众全年第2,077,777辆整车在长春基地正式下线,再创年产量新纪录。与此同时,一汽-大众也成为2020年唯一一个年产量超过200万辆的乘用车企业。   目前,一汽-大众已经形成了长春、西南、华南、华东和华北的五大基地布局,构建了涵盖采购、研发、生产销售等在内的完善体系。2020年,一汽-大众不断优化制造和管理能力,积极推进数字化转型进程。在采购领域,一汽-大众搭建起数字化采购平台,实现了精细化管理、工作流程透明及工作效率的提升;...
时间:2021-07-19    来源:网络转载

时间:2021-07-19    来源:网络转载

sansa2025 sansa2025
16
2025-08-14
  每日财经(Mrcj88.cn)讯:   夜幕降临,璀璨光影中,“芙蓉园”的景、“九眼桥”的潮、“音乐坊”的雅别具韵味。2021中国都市夜间经济与消费升级大会16日在成都落下帷幕,其间,50余位嘉宾参加夜游,他们感叹天府之国城市魅力之余,也为活力涌动的夜间经济点赞。   疫情防控常态化下,重新点亮的夜经济成为消费复苏一个缩影。今年以来,随着我国经济复苏稳中向好,消费市场也在持续回暖:1至6月,社会消费品零售总额同比增长23%,比2019年同期增长9%,两年平均增长4.4%。...
时间:2025-04-28    来源:网络转载

时间:2025-04-28    来源:网络转载

sansa2025 sansa2025
14
2025-08-14
  每日财经(Mrcj88.cn)讯:   2024年,5G-A网络商用正式起航。作为5G演进的新阶段,5G-A网络被认为是不断拓展5G能力边界、持续推动产业向6G演进的关键技术,具有承前启后的重要作用。内蒙古移动紧抓发展契机,大胆创新、勇于开拓,围绕特色场景有序推进5G-A商用,致力于打造让市民能亲身感知到的5G-A全新高速网络体验。   1月初,内蒙古移动开展5G-A 3CC开通验证测试,成立了5G-A创新试点小组,制定3CC载波聚合方案,经过一系列周密分析与部署工作,最终结合网络环境、技术条件等因素选取内蒙古自治区呼和浩特市玉泉区五里营小区作为示范站点,成功完成5G-A技术验证工作,测试下行速率可达4.35Gbps,打造5G-A示范站点,标志着内蒙古移动正式踏上5G-A征程。...
时间:2024-05-15    来源:网络转载

时间:2024-05-15    来源:网络转载

sansa2025 sansa2025
15
2025-08-14
  每日财经(Mrcj88.cn)讯:   5月13日,阿联酋迪拜,气温高达40摄氏度,然而比气温更高的是这个“富油”国家推进5G-A商用的热情。   在当地著名的亚特兰蒂斯酒店,中东区域内最具影响力的电信行业组织SAMENA正在召开主题为“引领5G-A时代”的领袖峰会,记者亲眼见证了5G-A在当地取得的巨大突破。   阿联酋宣布打造5G-A之国   SAMENA(South Asia,Middle East,North Africa)成立于2006年,是由南亚/中东/北非电信监管机构、运营商、产业合作伙伴等共同成立的ICT产业组织,在全球亦有较大影响力,其董事会由区域最重要的十余家运营商高管组成。领袖峰会每年由SAMENA例行主办,是中东区域内最具影响力的电信行业峰会。...
时间:2024-09-11    来源:网络转载

时间:2024-09-11    来源:网络转载

sansa2025 sansa2025
13
2025-08-14
  每日财经(Mrcj88.cn)讯:   伦敦, Sept. 11, 2024 (GLOBE NEWSWIRE) -- 以 AI 为后盾的字幕和翻译服务全球领先企业 AI-Media,欣然宣布与英国最大的商业广播公司 ITV 建立全新合作伙伴关系。 此次合作标志着 ITV 在利用 AI 字幕技术提升自身广泛广播网络的可访问性和运营效率方面,迈出了重要一步。   ITV 可访问性业务总监 David Padmore 强调,这一合作对于推进 ITV 采用新技术的承诺意义重大。 在 ITV,我们不断寻求创新解决方案,以改进我们的服务,并满足观众的多样化需求。 与 AI-Media 的合作,使我们能够利用尖端 AI 技术简化字幕工作流程,同时保持最高标准的准确性和可靠性。...
时间:2021-01-19    来源:网络转载

时间:2021-01-19    来源:网络转载

sansa2025 sansa2025
15
2025-08-14
  每日财经(Mrcj88.cn)讯:   纽瑞芯科技选择 LitePoint IQgig-UWB™ 平台确保超宽带 (UWB) 产品的性能   纽瑞芯科技借助 LitePoint 的 IQgig-UWB™平台进行UWB片上系统(SoC)系列性能验证   加利福尼亚州圣何塞, Jan. 19, 2021 (GLOBE NEWSWIRE) -- 无线测试解决方案的领先提供商 LitePoint 今日宣布,超宽带 (UWB) 芯片解决方案提供商纽瑞芯科技(NRT) 已基于 LitePoint IQgig-UWB™ 完成标准化,用于其 UWB 片上系统 (SoC) 系列的设计验证。...
评论 SAY SOMETHING
年度爆文