AI新闻 | 第9页

23:00

谷歌推出托管MCP服务器，让AI代理轻松接入其工具

Google推出全托管的远程MCP服务器，旨在简化AI代理与外部工具和数据的连接。通过集成Maps、BigQuery等服务，开发者可以更便捷地将AI代理接入实际应用中，如直接查询大数据或进行行程规划。此举基于开放标准Model Context Protocol (MCP)，不仅支持自家产品如Gemini CLI，也兼容第三方客户端如Claude和ChatGPT。同时，利用Apigee API管理工具，企业可为AI代理设置安全和治理规则，推动AI在企业级应用中的落地。

来源：TechCrunch AI

22:18

ChatGPT整合Adobe Photoshop等部分软件功能

据报道，Adobe公司现已将Adobe Photoshop、Adobe Express和Adobe Acrobat功能直接接入ChatGPT平台。（广角观察）

来源：钛媒体

22:00

AI初创公司Tavus创始人称用户每天与AI圣诞老人“交谈数小时”

Tavus AI 创业公司推出第二代 AI 圣诞老人体验，利用语音和面部克隆技术创建数字复制品，实现与用户的文本、电话或视频聊天互动。新版AI圣诞老人更加富有表现力和情感意识，能够识别用户表情和手势，并记忆对话内容以提供个性化体验。该应用展示了多模态模型在智能助手领域的进步，但也引发了关于AI对儿童影响的讨论。

来源：TechCrunch AI

22:00

Figma推出基于AI的对象移除与图片扩展新功能

Figma 推出了基于AI的图像编辑新功能，包括对象移除、隔离和图像扩展等，旨在简化设计流程并减少对第三方工具的依赖。这些功能利用了先进的计算机视觉技术，使用户能够更直观地调整图像元素如光照、阴影、颜色等。同时，Figma 将所有图像编辑工具整合到一个工具栏中，提高了易用性。此举标志着Figma在与Adobe和Canva等竞争对手的竞争中迎头赶上，并展示了AI在提升用户体验方面的潜力。

来源：TechCrunch AI

20:41

乐奇Rokid这一年，一路狂飙不回头

乐奇Rokid在2025年智能眼镜市场中脱颖而出，通过深度学习与多模态技术优化用户体验。其产品集成了拍照、翻译、提词等功能，并创新性地引入了磁吸式充电设计及AI指令优化，显著提升了交互体验。乐奇Rokid还特别关注用户需求，如为视障用户提供更快速的语音提示服务，以及支持粤语唤醒功能。这些举措不仅推动了智能眼镜的技术进步，也为行业树立了新的标杆。

来源：量子位

20:13

据报道，SpaceX计划于2026年进行IPO，目标估值达1.5万亿美元

虽然新闻主要讨论了SpaceX计划在2026年进行IPO及其估值目标，但考虑到AI技术在航天领域的应用潜力，可以预见未来AI将在其商业落地中扮演重要角色。特别是，在自动驾驶、智能助手以及基于计算机视觉的导航系统等方面的应用，将极大推动太空探索与商业航天的发展。

来源：TechCrunch AI

19:12

一年内总融资额超10亿美元，Apptronik要做通用高性能机器人本体

Apptronik，一家专注于人形机器人本体的具身智能创业公司，在一年内获得超过10亿美元融资。其最新产品Apollo采用NVIDIA和谷歌DeepMind提供的模型，能够执行多种任务，目前主要应用于制造业与物流领域。该公司的长远目标是将机器人引入家庭环境，实现辅助护理等功能。随着AI技术的进步及供应链成本下降，预计到2035年全球人形机器人市场规模将达到380亿美元。

来源：36氪

19:11

花399买华为AI玩具们陪聊结果比养娃还累，被华强北吐槽“太Low”但专供小红书女孩？

华为等科技大厂推出300多元的AI陪伴机器人，如“憨憨”、“Fuzozo芙崽”等，通过模拟宠物或角色互动提供陪伴体验。尽管这些产品在语音识别、多模态交互方面有所尝试，但对话内容仍显单一且缺乏深度，难以真正满足成人的情感需求。这反映了当前消费级AI在提升用户体验、增强情感连接方面的挑战与局限性。

来源：36氪

18:09

智能体互联网引发物联网的重新定位，如何完成从”智联万物”到”可编程世界”的惊险一跃?

智能体互联网引发物联网的重新定位，如何完成从"智联万物"到"可编程世界"的惊险一跃?

本文探讨了AI与物联网的深度融合趋势，指出物联网正成为智能体互联网时代的数字底座。通过分析从互联网到智能体互联网的五次关键演进，强调了物联网在数据供应、价值创造及架构支撑方面对AI技术的重要性。未来，基于大模型的智能体将实现跨品牌设备协作，推动物理能力液态化，为用户提供无缝体验。

来源：36氪

18:09

「豆包手机」为何能靠超级Agent火遍全网，我们听听AI学者们怎么说

豆包手机助手通过将AI Agent嵌入系统底层，实现了端侧AI能力的全面突破，带来了全新的交互方式和多模态体验。它能够跨App执行复杂指令，完成长链路任务，如地图标记、查找信息及订票等。该助手基于自研的UI-TARS引擎，结合视觉多模态理解和大模型推理，具备了强大的上下文记忆与决策能力，为实现更高阶的系统级GUI Agent奠定了基础。

来源：36氪

17:08

好莱坞首位AI女演员幕后：花6万美元「整」出黑眼圈，毙掉2000版，卡梅隆：令人毛骨悚然

新闻报道了英国公司 Particle6 利用多种 AI 技术，包括 ChatGPT、Runway、Sora 等，创造了一个名为 Tilly Norwood 的虚拟女演员。Tilly 的设计经历了多次迭代优化，最终实现了高度逼真的外观与动态表现能力。这一案例展示了 AI 在图像生成、视频合成等多模态处理方面的最新进展及其在影视娱乐领域的潜在应用价值。

来源：36氪

17:07

AI 眼镜，距离大众市场还有多远？

2025年，AI眼镜成为新兴娱乐与实用工具，配备摄像头、麦克风及扬声器，搭载大模型和AI助手，支持录音录像、拍照识物等功能。市场增长迅速但面临高退货率挑战，主要问题集中在佩戴舒适度、AI响应速度及功能实用性上。未来，随着技术进步和供应链优化，预计将在视觉增强、听觉增强及融合显示三大方向进一步发展，目标是实现更轻便、更智能的穿戴体验。

来源：36氪

17:07

不融资、不烧钱、不扩团队，华裔 CEO 创办的AI独角兽打入谷歌、Anthropic核心供应链，如今营收近百亿

Surge AI 作为一家专注于高质量数据标注的公司，在没有外部投资的情况下实现了年营收超 10 亿美元的成绩。其创始人 Edwin Chen 认为，高质量的数据是训练出高性能 AI 模型的关键。Surge AI 通过构建精英标注员网络和先进的人机协同系统来保证数据质量，赢得了包括 OpenAI、谷歌等在内的顶尖客户。这表明，在当前模型能力快速提升的同时，高质量的训练数据成为了决定 AI 应用效果的重要因素。

来源：36氪

15:04

美团AI转向，前字节视觉模型AI平台负责人潘欣加入｜智能涌现独家

美团积极布局AI，引入前字节视觉大模型负责人潘欣推动多模态AI创新。2025年，美团发布一系列基座模型及应用，涵盖语言、视觉、音频、视频全模态，并在主营业务中加速AI化改造，推出如“袋鼠参谋”、“智能掌柜”等工具。当前，美团正聚焦于模型训练与商业化落地，招聘高标准AI人才，强化自研能力。

来源：36氪

15:04

谷歌打响AI战争第一枪

谷歌基于Gemini模型为美军推出生成式AI平台GenAI.mil，处理海量文档并接入机密数据流，标志着其从2018年拒绝军事合作到全面支持五角大楼的转变。此举反映了AI技术在军事领域的深化应用，以及商业利益与国家战略需求的结合，同时引发了关于技术伦理和企业责任的讨论。

来源：36氪

15:04

只用512张H200，106B模型靠分布式RL杀出重围，全网开源

Prime Intellect发布106B参数的INTELLECT-3模型，在数学、代码等基准测试中取得同规模最佳表现。该模型基于强化学习技术栈训练，通过开源其完整的训练流程（包括模型权重、框架、数据集及评测体系）推动大规模RL研究的发展。INTELLECT-3利用了全分布式PRIME-RL框架和高吞吐Prime Sandboxes系统，实现了高效的训练过程。未来，Prime Intellect计划进一步扩展智能体式RL的应用范围，并提高长时序任务处理能力。

来源：36氪

15:04

2比特复数模型媲美全精度，北大通用框架让大模型在手机上也能流畅运行

北京大学团队提出Fairy2i框架，通过广义线性表示、相位感知量化及递归残差量化技术，在无需重新训练的情况下实现预训练模型的2比特量化，性能接近FP16。该方法解决了大模型在边缘设备部署时面临的算力和存储挑战，为AI在移动设备上的高效运行提供了新路径。

来源：36氪

15:04

深大团队让机器人听懂指令精准导航，成功率可达72.5%，推理效率提升40%

深圳大学李坚强教授团队联合其他机构提出视觉-语言导航新框架UNeMo，通过多模态世界模型与分层预测反馈机制提升导航智能体决策能力。相比主流方法，UNeMo在未见过环境中的导航成功率可达72.5%，尤其在长轨迹导航中表现优异，同时大幅降低资源消耗。该研究解决了传统方法中推理与决策分离的问题，为视觉-语言导航提供了一种高效可行方案，推动了服务机器人等实际应用场景的发展。

来源：36氪

14:28

5天连更5次，可灵AI年末“狂飙式”升级

可灵AI在5天内连续发布5次更新，推出全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型等。这些更新不仅提升了生成式AI在视频和图像生成方面的可控性和多样性，还实现了从文本到包含自然语言、动作音效及环境氛围音的完整视频的一站式生成。此外，通过融合多模态理解与长上下文技术，可灵AI进一步推动了生成式AI技术的发展，并在多个应用场景中展现出卓越性能。

来源：量子位