腾讯研究院AI速递 20250520
生成式AI
一、 OpenAI沙漠中建全球最大AI数据中心,耗电抵五座核电站
1. OpenAI与阿联酋G42合作,计划在阿布扎比建设5千兆瓦数据中心,占地10平方英里,规模超过摩纳哥;
2. 项目属于"星际之门"计划一部分,耗电量相当于五座核电站,规模是德州阿比林园区的四倍;
3. G42因与中国实体关系引发美方担忧,随后撤出在华投资,微软投资15亿美元并派高管入驻G42董事会。
二、 老黄最新演讲!新一代B300与「万卡互联」MVLink登场
1. NVIDIA推出新一代Grace Blackwell GB300系统,性能全面提升,可通过MVLink技术将72个GPU连接成单一巨型GPU;
2. 发布MVLink Fusion计划,允许合作伙伴将自定义ASIC或CPU集成到NVIDIA生态系统,支持半定制AI基础设施;
3. 推出Isaac GR00T平台和Cosmos物理AI模型,强化机器人与数字孪生技术,Newton物理引擎将于7月开源。
三、 华为+DeepSeek,推理性能创新高!技术报告也公布出来了
1. 华为昇腾新推出CloudMatrix 384超节点和Atlas 800I A2服务器,在DeepSeek模型推理性能上超越英伟达Hopper架构;
2. 采用"以数学补物理"策略,通过FlashComm通信方案、AMLA算法等技术创新,解决超大规模MoE模型部署难题;
3. CloudMatrix 384超节点在50ms时延下单卡吞吐达1920 Tokens/s,Atlas 800I A2在100ms时延下达808 Tokens/s,相关技术将陆续开源。
四、 刚刚,腾讯发布新版QQ浏览器,双模驱动新一代AI浏览器
1. 腾讯发布新版QQ浏览器,集成QBot功能,采用腾讯混元和DeepSeek双模型驱动,可从全网内容中提炼整理答案;
2. 主要功能包括AI搜索、多模态交互、文档解读翻译、智能写作和学习辅导,支持PC和手机端信息同步;
3. 提供AI工具箱,包含格式转换、信息提取、文档处理等办公功能,支持端外唤起,无需额外插件可直接在浏览器中使用。
五、 B 站开源动画视频生成模型 AniSora支持多种二次元风格视频
1. B站开源动画生成模型Index-AniSora,支持多种二次元风格视频生成,入选IJCAI25,可实现基于国产芯片华为910B的高效分布式训练;
2. 系统包含两个版本:基于CogVideoX-5B的V1.0和基于Wan2.1-14B的V2.0,支持时空掩码、局部控制等功能,覆盖80-90%应用场景;
3. 构建了千万级文本-视频训练数据,并开源首个动画领域人类偏好强化学习模型,包含30,000条标注样本的奖励数据集。
六、 苹果发布AI生3D模型,三张照片即可生成3D模型,还开源
1. 苹果联合南京大学等机构发布Matrix3D模型,采用统一架构和遮蔽学习策略,仅需三张照片即可生成高质量3D场景模型,并已开源;
2. 苹果高层推动Siri向ChatGPT方向转型,内部测试的聊天机器人已接近ChatGPT水平,计划增加网页搜索和App调用等功能;
3. 苹果正谨慎处理Siri升级策略,避免提前公布功能,并考虑将Siri与Apple Intelligence品牌分开,以规避负面影响。
七、 GenSpark发布Agentic AI下载,文件管理「智能体时代」
1. MainFunc旗下GenSpark发布全球首个AI下载代理工具Agentic Download Agent,通过自然语言指令实现文件下载和处理自动化;
2. 采用Mixture-of-Agents架构,整合8个不同规模语言模型和80余种工具链,将传统耗时任务压缩至分钟级完成;
3. 配套推出AI Drive智能云盘,支持多种数字资产格式,可对已下载文件进行二次分析处理,并开放API接口供企业系统集成。
八、 2.5亿估值、硅谷爆火,AI笔记产品Granola的设计思路
1. Granola以2.5亿美元估值完成B轮融资,通过高效的个性化AI会议记录功能,成为独角兽创始人和企业高管的首选笔记工具;
2. 产品核心优势在于赋予用户控制权,支持实时编辑和个性化记录,并采用不保存音频的方式保护隐私;
3. 创始人认为AI工具的关键在于增强而非替代人类能力,未来将从单一笔记工具发展为融合个人上下文的综合工作平台。
前沿科技
九、 全球机器人视触融合挑战赛,中国团队包揽三金刷新国际榜单
1. 第一届ManiSkill-ViTac 2025视触觉融合挑战赛落幕,42支全球顶尖团队参赛,中国企业包揽三金,将在ICRA 2025研讨会汇报;
2. 原力灵机Dexmal赢得纯触觉操控和触觉传感器设计两项金牌,通过双范式学习框架将成功率提升2-3倍,它石智航获视触融合操控金牌;
3. 该赛事是首个结合视觉与触觉的公开赛事,推动触觉-视觉融合算法进步,为机器人从实验室到现实应用搭建桥梁。
报告观点
十、 GitHub CEO硬刚老黄:放弃写代码等于放弃智能体未来话语权
1. GitHub CEO托马斯·多姆克反驳"编程无用论",强调2025年是编程智能体之年,但未来仍需要人类程序员掌控软件生命周期;
2. GitHub已发布Workspace、Project Padawan等多个SWE智能体产品,Copilot用户达1500万,同比增长4倍,并将推进多智能体"乐队模式";
3. GitHub认为AI只能作为高级开发者助手,主张人类应持续学习编程,以保持对AI系统的指导和控制能力。
????加入ima知识库,AI智能问答