发布时间:2025-05-06 20:39:10 点击量:
HASH GAME - Online Skill Game GET 300被SIGCOMM 2025主会双双录用,核心技术再次得到业界认可。阿里云网络坚持自主研发,历经十余年持续深耕云网络,在超高性能网络转发、超大规模网络控制、超高精度网络观测等多个技术领域取得了多个技术突破,相关工作发表在SIGCOMM、NSDI、INFOCOM、MobiCom等国外顶级会议上。自2020年以来,阿里云网络在SIGCOMM/NSDI两大通信领域顶会发表了数十篇论文,国内云服务厂商入选数量排名第一。飞天洛神的各项关键技术分别获得了2021年浙江省技术发明一等奖、2021年中国计算机学会技术发明一等奖、2023年中国计算机学会技术发明二等奖以及2023年中国自动化学会科技进步一等奖,技术领先性得到了国内外重要机构的高度认可。
SIGCOMM 是 ACM 组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首,对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,通常录用率不足20%。SIGCOMM 2025将于2025年9月8-11日在葡萄牙Coimbra举办,此次会议,阿里云洛神云网络团队两项核心技术通过对超大规模云网络运营的理解,将理论与实践结合,将落地部署多年的经验凝聚成长文,获得了国际学者和业界专家的高度认可。下面我们将深入解读一下这两项核心技术为何能从海量投稿论文中脱颖而出。
Nezha是阿里云在vSwitch领域继Achelous和Triton之后的第三篇SIGCOMM论文,聚焦于计算实例的网络资源/性能池化。通过利用集群内所有的SmartNIC作为分布式vSwitch的弹性资源池,充分释放单个vSwitch的性能极限,提供单vSwitch接近裸机的百万级连接新建能力(CPS)、数倍的并发流能力、和数十倍的虚拟网卡密度提升。在此过程中,Nezha创新性地解决了vSwitch集群粒度池化带来的状态管理、容灾及负载均衡等关键挑战。论文详细阐述了阿里云的设计思考与技术实践,为更具弹性的下一代计算、网络解耦的数据中心部署形态提供了新的思路。
在云数据中心中,SmartNIC加速的vSwitch被广泛用于为云服务器和容器等计算实例提供高性能网络服务。然而,由于网络虚拟化以及多租带来的开销,云服务器的网络能力长期受限于单个SmartNIC有限的物理资源而远低于裸机(指物理服务器间直连,无overlay,网络非瓶颈)的水平。例如,阿里云基于Triton卸载架构实现了主流云厂商中最高的单卡单服务器43万CPS,仍低于裸机的120万CPS。这就意味着在单个云服务器上,网络可能先于计算CPU达到瓶颈,而无法水平扩展(受限于单卡资源),尤其是一些流量重载的网络中间件服务。
另一方面,在大规模的vSwitch部署运维中,我们还发现了用户对网络与计算资源的消耗是极其不均衡的。就网络而言,只有少数服务器上的用户网络需求高,vSwitch因卡上资源不足面临性能瓶颈(大约占0.01%),但是从集群角度看大量vSwitch/SmartNIC却处于相对空闲的状态(卡上的CPU和内存平均利用只有5%和1.5%)。这种资源“短缺”与“闲置”并存的问题,使得通过部署更高性能的SmartNIC或利用主机资源来解决过载变得成本高昂且效率低下。现有解决方案如Sirius虽然引入专用设备分担压力,但存在硬件成本高、状态同步复杂以及性能开销大的问题。因而我们开始探索寻求SmartNIC网络资源池化解法,让网络彻底摆脱单卡资源限制,与计算资源解耦。
在Nezha这篇论文中,我们提出了一种计算网络解耦下的vSwitch池化架构,旨在调动整个集群粒度的SmartNIC资源池,来提升单个vSwitch网络性能上限。其核心思想是通过对vSwitch中虚拟网卡(vNIC)的数据包处理负载进行建模拆解,尽可能地卸载到远端SmartNIC以利用池化的资源。为了避免复杂的状态同步和传输开销,我们按有无状态的原则将vNIC网络负载拆解成前端和后端两部分,前端(无状态规则/流表)卸载到远端资源池,有状态的后端部分则保留在本地卡上进行处理。借助ECMP机制,远端节点池的性能也可以很容易地实现线性伸缩和容灾处理。
Nezha是阿里云在vSwitch领域多年技术积累的成果,也是阿里云对下一代数据中心部署方向的探索。在计算网络解耦的大背景下,利用整集群的SmartNIC资源构建单节点vSwitch性能水平扩展能力,实现了高性能、低成本的vSwitch池化方案。在实际部署中,Nezha无需新增硬件,仅通过软件优化即可将CPS能力提升3~4.4倍,支持的并发流和vNIC数量分别提升5.04~50.4倍和超过40倍。作为云基础设施中的关键组件,Nezha不仅将vSwitch过载率降低了99.9%,其部署成本和复杂性也极低,为网络功能的进一步扩展提供了灵活性与高性能保障。
在推出无侵入的多租服务网格架构Canal Mesh(SIGCOMM24)之后,洛神云网络团队再次带来了Canal系列的第二篇文章——Canal dispatcher:Hermes。Hermes聚焦于解决用户在L7层服务接入中面临难题的重磅论文,论文深入剖析了L7负载均衡worker进程之间负载不均的根本原因,并系统性地展示了阿里云在此领域的设计思路与创新实践。相比现有方案,Hermes将worker时延突刺的次数大幅降低了99.8%,同时使得L7负载均衡的云基础设施单位成本降低了18.9%。
基于上述测量结果和思考,我们提出了Hermes,其核心思想是将用户空间worker进程的多个状态指标作为L7负载均衡决策的重要依据,构建灵活高效的闭环连接分发控制机制,并通过eBPF以非侵入方式定制内核功能。Hermes将worker的可用性、待处理事件数以及累积连接数作为参考指标,并在原有的epoll事件循环中添加少量代码,用于收集这些指标并更新到内核。再基于这些指标为新连接选择worker,来实现worker间负载均衡。
Hermes作为Canal系列的Dispatcher组件,是阿里云在L7负载均衡领域多年技术积累的结晶。基于用户态引导的I/O事件通知框架设计,相较于传统方案,实现了更精细的流量调度与租户隔离。L7 LB作为云基础设施中服务交付的关键组件,Hermes通过闭环控制与eBPF技术的结合,不仅解决了传统负载均衡中面对云上多种租户流量类型导致转发进程负载不均的问题,还提供了极高的可编程性和快速迭代能力,为未来支持更复杂的业务逻辑和服务形态奠定了坚实的基础。Hermes已在阿里云大规模部署,显著降低了时延突刺现象和部署成本,展现了其在高性能、高可靠性和灵活性方面的卓越优势。
阿里云飞天洛神云网络专注于为阿里云包括ECS、容器、裸金属在内的各类云服务提供超大规模、超高性能、广泛可靠的网络连接,自诞生起就坚持自主研发,从硬件到软件把握核心技术命脉,同时积极推进产学研结合。迄今为止,先后与9所高校/科研机构共同探究研究课题,填补领域空白。在网络与系统领域的顶级学术会议上,先后展示了:虚拟网络探测技术vTrace (SIGCOMM20)和Zoonet (CoNEXT22)、P4硬件网关Sailfish (SIGCOMM21)和LuoShen (NSDI24)、超大规模的网络虚拟化平台Achelous (SIGCOMM23)、AVS虚拟交换机的硬件卸载框架Triton(SIGCOMM24)、计算网络解耦下的vSwitch池化架构Nezha(SIGCOMM25)、公有云虚拟网络控制器平台Poseiden (NSDI24)、NFV弹性网元平台CyberStar (ATC24) 、首个服务网格平台Canal Mesh (SIGCOMM24) 和 面向7层LB的用户态引导I/O事件通知框架Hermes(SIGCOMM25)。阿里云飞天洛神云网络将继续以追求极致的技术创新为使命,创新落地服务用户为宗旨,为阿里云用户提供更优质的网络服务体验。
本文介绍了基于阿里云CAP平台快速部署Bolt.diy的全流程。Bolt.new是一款强大的无代码对话网站构建工具,其开源版本Bolt.diy虽功能强大但部署复杂。阿里云的新解决方案简化了这一过程,通过函数计算(FC)和通义千问大模型能力,将数十步部署流程精简至“一键启动”。文章详细描述了从访问Web界面、提交请求到生成代码的步骤,并提供了系统提示词优化方案,以提升代码生成效率。此外,还对比了不同版本的Bolt.new,帮助开发者选择适合的方案。此方法适合希望快速落地项目的开发者,尤其在需要整合云服务时表现出色。
本文探讨了AI Agent的相关概念和技术细节,包括其定义、与传统软件的区别、构成组件、工作原理及优化方法。AI Agent是一种基于大语言模型(LLM)的智能代理,能感知环境、推理决策并执行任务。相比传统自动化软件,AI Agent具备更强的理解力和自主性,可处理复杂任务。文章分析了Chatbot向AI Agent演进的趋势及其驱动因素,并详解了提升AI Agent效果的关键要素如模型质量、工具选择和指令设计。此外,还讨论了Workflow与LLM的结合方式以及单智能体与多智能体系统的优劣,为理解和应用AI Agent提供了全面视角。
本文介绍了如何通过alibaba-cloud-ops-mcp-server和MCP(Model Context Protocol)实现AI助手对阿里云资源的复杂任务操作。内容涵盖背景、准备步骤(如使用VS Code与Cline配置MCP Server)、示例场景(包括创建实例、监控实例、运行命令、启停实例等),以及支持的工具列表和参考文档。借助这些工具,用户可通过自然语言与AI助手交互,完成ECS实例管理、VPC查询、云监控数据获取等运维任务,实现高效“掌上运维”。
本文深入解析了Model Context Protocol(MCP)协议,探讨其在AI领域的应用与技术挑战。MCP作为AI协作的“USB-C接口”,通过标准化数据交互解决大模型潜力释放的关键瓶颈。文章详细分析了MCP的生命周期、传输方式(STDIO与SSE),并提出针对SSE协议不足的优化方案——MCP Proxy,实现从STDIO到SSE的无缝转换。同时,函数计算平台被推荐为MCP Server的理想运行时,因其具备自动弹性扩缩容、高安全性和按需计费等优势。最后,展望了MCP技术演进方向及对AI基础设施普及的推动作用,强调函数计算助力MCP大规模落地,加速行业创新。
Qwen3是Qwen系列大型语言模型的最新成员,作为混合推理模型,其旗舰版本Qwen3-235B-A22B在代码、数学和通用能力测试中表现出色,与顶级模型DeepSeek-R1、o1、o3-mini等相比具有竞争力。小型MoE模型Qwen3-30B-A3B激活参数仅为QwQ-32B的10%,性能更优,甚至小规模模型Qwen3-4B也能匹敌Qwen2.5-72B-Instruct。Qwen3支持思考与非思考两种模式,可根据任务需求灵活调整推理深度,并支持119种语言,Qwen3在推理、工具调用及多语言处理等方面显著提升,目前已开源并在阿里云百炼平台上线,提供便捷体验。