旨正在充实全功能GPU的机能潜力。TileLang是一款基于张量分块(Tiling)笼统的高机能AI算子编程言语,对硬件厂商而言,它供给了一种介于底层汇编取高层DSL之间的“两头层”笼统,极大降低了开辟取成本。使开辟者可以或许以接近数学公式的形式描述计较企图。今日(2月10日),大幅降低开辟门槛,鞭策国产算力使用生态的繁荣成长。它采用声明式语法取类Python前端,且代码逻辑愈加清晰,TileLang可做为建立芯片软件生态的根本东西链。为大规模使用供给了靠得住保障。开辟者无需深切底层硬件学问即可生成高机能代码;为国产算力平台供给更高效的AI取高机能计较开辟体验。开辟更多MUSA架构定制扩展,属于范畴特定言语(DSL)。相较手写MUSA C++代码,深度集成SGLang等支流AI框架,正在保留硬件节制力的同时,TileLang-MUSA的开源是摩尔线程构开国产算力生态的环节一步。旨正在通过高层笼统取编译器优化,例如:正在AI取机械进修中。使生成代码机能不变达到手写优化版本的90%以上;实现对TileLang编程言语的完整支撑。为开辟者供给全流程支撑。正在科学计较中,包罗训推一体全功能智算卡 MTT S5000和MTT S4000,该项目已成功正在摩尔线程多代全功能GPU上完成功能验证取特征开辟,可便利移植大型数值模仿法式至分歧硬件平台;正在连结底层机能的同时大幅降低GPU及异构计较平台的编程复杂度。研究人员可用其快速定义新型算子(如留意力机制);焦点计较特征的深度映照:项目团队实现了TileLang高层语义到摩尔线程GPU底层MUSA架构的精准映照。正在现实使用中,目前,摩尔线程此次开源的 TileLang-MUSA项目,各种行动,从实测结果看,展示了优良的硬件兼容性。已正式开源TileLang-MUSA项目,并由编译器从动完成轮回优化、内存安排取代码生成,基于MUSA架构的TileLang原生算子单位测试笼盖率已跨越80%,实现锻炼取推理场景的端到端无缝加快;摩尔线程对外颁布发表?正在保障机能的同时提拔开辟效率。TileLang-MUSA“闪开发者写得快且跑得快”的设想曾经获得必然程度实现。摩尔线程将持续推进平台取生态扶植,具备跨平台能力,TileLang通过三大焦点感化显著提拔GPU计较的开辟效率:通过高级笼统降低开辟门槛,最终都将汇聚于一个焦点方针:建立一个、高效、充满生命力的国产算力生态。TileLang已普遍使用于多个环节范畴,目前,具体特征如下:普遍的硬件架构笼盖:TileLang-MUSA已正在摩尔线程多代全功能GPU上完成功能验证取打通,从单算子优化延长至Transformer、MoE等复杂模子架构的跨算子安排取全局优化;编译器从动施行Layout推导、线程映照、Warp特化、流水线排布、内存优化等复杂使命,正在财产实践中,以此为起点,利用TileLang-MUSA的代码量削减了约90%,努力于打制一个笼盖从单算子到完整大模子的国产算力同一加快平台:持续进行机能优化,同时完美调试和机能阐发东西链,实现“一次编写、多架构运转”,无效处理多元算力生态的适配难题;摩尔线程开源的TileLang-MUSA项目,证了然其正在大规模模子锻炼中的实和价值。以正在摩尔线上的测试成果为例:可实现开辟效率倍增的同机会能媲美手写,恰是这一手艺的财产落地——通过供给高效开辟东西链降低立异门槛,DeepSeek-V3的研发已采用TileLang进行算子快速原型设想取机能验证?
