点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
9月11日,2024 IDC中国年度盛典暨颁奖典礼在上海启幕。本次峰会以“AI时刻,欢迎来到下一个大事件”为主题,深度探讨生成式AI、创新业务模式、科技可持续发展等热门话题。会上,天翼云科技有限公司市场营销部总经理王彦丹分享了云智一体时代背景下,天翼云如何以坚实的国云智算底座驱动产业数智化转型加速,开创数字经济高质量发展新未来。
丰富的智算资源供给,高效实现算力供需匹配
天翼云自建丰富、形态多样的智能算力资源。围绕AI产业集聚地区,天翼云规划建设北京、上海、广东、浙江、安徽人工智能公共算力中心,并先后建成上海、北京万卡池;在内蒙古、贵州、宁夏等清洁能源集聚地建设智算中心,为用户提供绿色算力。此外,天翼云还在280多个地市的一城一池节点和1000多个边缘节点按需下沉AI云电脑算力和推理算力;提供国内外主流的GPU、NPU算力方案,面向不同场景为用户提供公有云、私有云、边缘云多种形态服务。
在自建算力的同时,天翼云发挥“息壤”的强大算网调度能力,大规模汇聚社会各方算力,促进算力互联互通、高效利用和供需匹配。基于在算力统一接入、算数网整体调度、算力便捷使用三个方面的显著技术突破,“息壤”可服务于三大算力场景:一是天翼云自营公共算力服务平台,目前已接入39家算力伙伴,实现三方各类算力可调度,显著扩大算力规模和品类,满足公有云客户的多元算力需求;二是帮助客户构建行业算力互联网,例如高校算力联盟等,实现行业内算力利用率的有效提升;三是帮助地方政府构建城市算力互联网,实现区域内多方算力的一体化统筹调度,助力地方经济和产业发展。
强大的智算服务能力,降低大模型应用创新开发门槛
“息壤”具备高效的异构计算能力,可为万亿参数基础大模型提供高性能计算服务。在大算力需求方面,天翼云建设PB级并行文件存储,并组建低延时超大规模RDMA网络,通过计算、内存和通讯的多维优化,提升综合算效。在性能方面,对AI框架进行升级、存储加速,实现checkpoint文件快速保存、加载,将国产算力的综合算效提升到了行业可比水平。在稳定性方面,通过多项指标的监控分析,实现故障训前发现,有效控制大模型训练中断恢复时长,实现训练任务长期稳定、高可用运行。基于国产万卡智算集群和自研智算平台,天翼云已具备支撑万亿参数基础大模型训练的能力。
“息壤”一站式训推服务能力,可降低大模型应用创新开发门槛。天翼云将大模型精调场景简化操作至选数据、选硬件和选模型三个步骤,显著提升部署效率;通过自研AI框架、3D并行加速、自研训练加速库、容器调度优化等核心技术,大幅提升训练效率;通过模型量化压缩、自研推理加速算子库、自研AI推理加速框架等核心技术,提高推理效率;通过全链路故障检测、定位、告警,全链路日志监控与可视化、断点续训快速恢复等核心技术,实现训推过程全链路监控。
开放的模型应用生态,加快推动AI应用落地
开放合作共享的生态是产业进一步繁荣发展的基础。天翼云全新升级AI电脑,开放AI云电脑平台,打造AI应用中心,使AI应用能够更广泛地接入和使用。
此外,天翼云魔乐(Modelers)开发者社区,携手伙伴为开发者提供一个交流、学习和创新的平台。魔乐社区集成了开发工具链、模型库、数据集和体验空间等核心组件,覆盖自然语言处理、视觉、音频等领域,提供原生模型、易用开发工具、丰富的生态资源,致力于聚合优质中文AI资源。
伴随新一轮人工智能浪潮涌动以及AI规模化落地应用,智算基础设施的重要性愈发凸显。天翼云将不断夯实国云智算底座,持续突破技术创新的边界,强化服务能力,以普惠智能算力赋能千行百业蝶变,携手各界伙伴共绘数智化新蓝图。(李记)