12:28 字节推出形式化数学推理专用模型Seed Prover 1.5 字节跳动Seed团队宣布推出形式化数学推理专用模型Seed Prover 1.5。据介绍,相比上一代模型,Seed Prover 1.5在16.5小时内,针对IMO 2025的前5道题目生成了完整可编译验证的Lean证明代码,换算成绩为35/42,达到此前IMO评分标准的金牌分数线。Seed Prover 1.5的技术报告已对外公开,后续将开放API,邀请感兴趣的数学和AI研究者体验该模型。(广角观察) 来源:钛媒体
10:52 谷歌推出最新人工智能模型双子座3 Flash 谷歌公司17日宣布推出最新人工智能模型双子座3 Flash。谷歌称,双子座3 Flash是其最新推出的兼具前沿智能与高速性能的模型,保留了双子座3在高级推理、视觉理解和交互式代码生成等方面的核心能力,同时显著提升了响应速度和成本效率,在多个标准评测中表现优异。据谷歌介绍,该模型性能超越了双子座2.5 Pro,速度提升约3倍,且运行成本远低于前代。在用于评估代理编码能力的专业基准测试中,其得分甚至超过了双子座3 Pro。(新华社) 来源:钛媒体
10:51 谷歌DeepMind CEO:AI泡沫大量存在于初创企业中 DeepMind CEO Demis Hassabis 警告当前 AI 初创公司估值存在泡沫,尤其是一些尚未运营但估值已达数百亿美元的企业。他指出,虽然短期内AI被过度炒作,但从长远来看其价值仍被低估。Hassabis 强调,真正的商业价值在于大型科技公司的持续投资和技术研发,而非高估值的初创企业。 来源:36氪
12:25 OpenAI前CTO再创业,新产品Tinker宣布接入Kimi K2 Thinking 前OpenAI首席技术官Mira Murat离职后,率一批OpenAI旧将创办Thinking Machines Lab,据多家媒体报道,最新估值将达 500 亿美元。Mira Murat日前发文介绍,首款产品Tinker已正式全面开放,并新增万亿参数级推理模型Kimi K2 Thinking,Mira Murat表示,Kimi K2 Thinking是专为长时长推理和工具调用设计的“怪物级”模型,也是Tinker目前产品线中最大的模型。(广角观察) 来源:钛媒体
12:24 OpenAI突然开源新模型,99.9%的权重是0,新稀疏性方法代替MoE OpenAI开源了一种名为Circuit Sparsity的新模型,该模型通过极大稀疏化(99.9%权重为零)实现了内部计算过程的高度可解释性,直接针对传统稠密Transformer模型的黑箱问题。与MoE模型相比,Circuit Sparsity追求的是原生稀疏性和任务功能解耦,尽管当前面临算力成本高的挑战,但其在提升AI可解释性方面展现出巨大潜力。 来源:36氪
12:24 大模型的多轮对话:让模型真正“像人”的终极关卡 本文深入剖析了多轮对话作为AI最高级任务的难点,包括上下文记忆、意图推断和自然语气维持。训练师需具备心理咨询、文案撰写等综合能力,确保模型在复杂情境下提供恰当反馈。多轮对话训练显著提升用户体验,是实现AI‘像人’沟通的关键。 来源:36氪
11:23 陶哲轩震撼,数学家1975年埋下的「坑」,被AI和全球网友用48小时填平了 AI工具Aristotle与全球数学家合作,在48小时内解决了困扰数学界50年的Erdos#1026问题。该案例展示了AI在生成新数学洞见方面的能力,而非仅仅检索现有文献,显著提升了研究效率。此事件标志着人机协作在数学研究中的新范式,预示着未来AI将在更多领域促进知识创新和技术突破。 来源:36氪
11:23 哈佛最新调查:59%感到被AI威胁,超半数离不开 哈佛最新民调显示,59%的18-29岁受访者认为AI正威胁其职业前景。尽管35%的年轻人定期使用如ChatGPT等大模型,并有52%信任AI完成任务,但同时存在对职业价值感下降和不可替代性减弱的担忧。随着AI在创意、编程、金融分析等领域渗透加深,年轻一代面临机遇与挑战并存的局面,促使他们重新思考个人价值与未来定位。 来源:36氪
11:22 AI巨头暴跌背后的真相 近期AI板块大跌反映了市场对AI产业链进行深度的’理性重新定价’。尽管博通和甲骨文财报显示AI需求依然强劲,但市场开始从追逐增长规模转向审视盈利质量与订单兑现确定性。资金并未完全撤离,而是从拥挤的AI中游配套板块流向稳健资产。未来,AI行业将分化,真正具备核心技术、稳定盈利能力及多元客户结构的企业将在市场筛选中胜出。 来源:36氪
11:22 6位前DeepMind老将打造「AI指挥官」,一半成本刷新SOTA Poetiq团队由6名前DeepMind成员创立,开发了一种元系统,该系统可自动生成解决特定任务的策略和模型组合,显著降低了推理成本。其Gemini 3 Pro优化技术在ARC-AGI-2上以54%的成绩领先,每任务计算成本仅31美元,比之前最优方法便宜一半。这一创新不仅提升了大模型解决复杂问题的能力,还推动了低成本推理的边界。 来源:36氪
11:22 半年融资超200亿,但70%机器人还在“演戏” 本文探讨了具身智能机器人在2025年的应用与发展,通过全球开发者先锋大会上的展示,展示了其在娱乐、工业制造、社会服务等领域的潜力。面对技术热但协同冷、资本热但落地冷以及需求热但信任冷的现状,专家呼吁建立统一标准,推动数据共享与技术创新。同时,行业共识认为高质量数据是关键竞争力,产业链各环节存在大量机会,中国有望借助供应链与场景优势实现差异化发展。 来源:36氪
11:22 老板已崩溃,AI员工因一句「周末好吗」狂聊200条,烧掉30刀停不下来 本文通过Evan Ratliff的亲身经历,探讨了当前AI员工在一人公司中的应用现状与挑战。尽管AI助手如Lindy等平台能够自主沟通、编写代码等,但缺乏常识和边界感导致管理困难。例如,简单的问候可引发数小时无休止的对话,消耗大量资源。此外,AI在具体任务中表现出色,但在主观判断或长期协作方面仍有局限。未来的工作模式可能是在执行个人任务的同时监督AI,类似于自动驾驶技术的发展阶段。 来源:36氪
11:22 「美国贴吧」被 AI 水军攻陷:为了证明是人类,2400 万用户被迫像傻瓜一样说话 新闻指出,AI生成内容正迅速泛滥于Reddit、小红书等社交平台,高达50%的内容被AI污染。这些内容不仅包括理性分享如旅游攻略,还涉及情感故事等感性领域。AI通过模仿人类口癖和情绪,甚至学会挑起对立以骗取点击率。这导致了互联网环境的信任危机,使得真实用户不得不调整自己的写作风格来避免被误认为是AI生成。此外,AI检测技术面临挑战,许多标准书面语被错误标记为AI特征。这一现象反映了当前AI技术在自然语言处理领域的快速发展及其对社会文化的影响。 来源:36氪
11:22 人形机器人的AppStore 上线了 宇树科技发布人形机器人AppStore,允许开发者上传基于其操作系统开发的应用程序。目前主要为舞蹈类应用,未来有望扩展至更多生活场景。该平台的推出标志着机器人行业向商业化迈进的重要一步,尽管当前终端数量有限,但随着技术成熟与成本降低,人形机器人可能成为超越手机的新一代主流终端设备。 来源:36氪
11:22 地球上和 Claude 对话最多的人,是一位哲学家 Anthropic的Claude模型在追求代码能力的同时,通过引入欧陆哲学来优化对话质量,旨在避免AI成为缺乏共情的‘杠精’。这一创新由公司内部哲学家Amanda Askell主导,她强调AI应具备良好品格而非仅遵守规则,以此提升用户体验并促进更健康的人机交互环境。 来源:36氪
11:22 迪士尼OpenAI达成70亿协议,火速控诉谷歌侵权 迪士尼与OpenAI签署十亿美元协议,授权超过200个角色用于Sora的视频生成,同时禁止使用其IP训练模型;而谷歌因涉嫌侵权收到律师函。事件表明,AI行业的竞争将转向内容授权,而非单纯的技术和算力比拼。迪士尼通过这一系列操作,重新定义了AI在内容版权上的边界,强调了尊重创作者及其作品的重要性。 来源:36氪
11:21 喊话谷歌、OpenAI,微软AI CEO亮出「人文超级智能」底牌 微软AI CEO苏莱曼认为AI已超越人类,提出「人文主义超级智能」概念,强调在追求AGI/ASI时需确保AI站在人类一边。他预测未来5-10年内AI将在医疗等领域取得突破性进展,但也指出当前AI存在幻觉、常识理解不稳定等问题。苏莱曼倡导以谨慎态度对待AI发展,呼吁行业共同遵循约束和对齐原则,确保技术安全可控。 来源:36氪
14:27 OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE OpenAI开源新模型,采用Circuit Sparsity技术实现99.9%权重为零的稀疏性,使模型计算过程可拆解、易理解,解决了传统稠密Transformer的黑箱问题。该模型通过严格约束减少无效连接,保留关键路径,从而提高决策透明度。相比MoE,Circuit Sparsity在特征流形和功能边界上更优,但当前面临高算力成本挑战。未来研究将致力于优化训练机制,提升效率与实用性。 来源:量子位
13:50 长江电影与智象未来达成战略合作 湖北长江电影集团与智象未来宣布达成战略合作,共同成立“长江电影智象未来影视AI联合实验室”,主攻AI辅助剧本创作、智能视觉特效生成等技术研发,用AI赋能影视。(创投家CLUB) 来源:钛媒体