📅 周期范围

  • 覆盖时间:2026-04-12 至 2026-04-26
  • 生成时间:2026-04-12
  • 本期提要:本期共整理 12 条内容,涵盖 AI资讯(6条)关注AI政策与产业动态,动态与更新(5条)聚焦技术突破与产品迭代,观察与观点(2篇)精选行业领袖深度观点,工具实践(1条)分享实用AI工具案例。

题图


💬 本期金句

AI 不该只在二维语言与图像层面运行,而应具备理解、生成、推理三维世界的能力。
—— 李飞飞(斯坦福大学教授/World Labs联合创始人)

  • 李飞飞被称为"AI教母",近期创立World Labs并提出"空间智能"概念。她认为生成式AI的下一阶段,是让AI真正"理解"并构建可交互的三维世界——而不仅仅是描述它。这一方向对教育领域意义重大:沉浸式学习场景、虚拟实验室、AI驱动的技能实训,都将建立在空间智能之上。

📰 AI资讯

1. 中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义

来源:量子位 | 原文链接

摘要

浙大城市学院联合浙江大学、香港城市大学等团队在 CVPR 2026 上发表的最新成果。该研究针对超声AI领域的痛点,构建了首个大规模超声专属数据集 US-365K,并提出了 Ultrasound-CLIP 框架,旨在让AI真正理解超声影像的临床诊断语义。

核心背景:超声AI的“三重障碍”

尽管超声是临床一线诊断手段,但通用视觉语言模型(如CLIP)难以直接适配,主要面临三大挑战:

  1. 数据缺口:现有医疗跨模态数据集中,超声样本占比不足5%,缺乏大规模专属数据。

  2. 语义模糊:超声报告表述多样,传统对比学习难以精准界定正负样本,易产生语义偏差。

  3. 缺乏临床先验:通用模型无法建模“病灶-属性”的复杂关联,仅能进行简单的关键词匹配。

实验结果与资源开源

  • 性能领先:在多任务分类中平均准确率达 59.61%(核心属性识别准确率超84%);在图文检索任务中,文本到图像检索(T2I)@50达 80.22%。

  • 泛化能力强:在乳腺、胃肠等4个下游数据集的零样本、线性探测任务中均取得最优性能。

  • 资源开源:论文已被 CVPR 2026 接收,代码、数据集(US-365K)及项目地址均已公开。

我的感想

我们距离AI医生、AI诊疗更近一步。你会更相信人类医生,还是AI医生?


2. Turn your best AI prompts into one-click tools in Chrome

来源:Google | 原文链接

摘要

Google 宣布在 Google Chrome 浏览器中 Gemini AI 的一项重大更新——Skills(技能)。这项功能旨在解决用户在浏览网页时重复输入相同 AI 指令的痛点,允许用户将常用的 AI 提示词(Prompts)保存为“一键式”技能,从而更高效地处理网页信息。

核心功能:Skills(技能)

Skills 允许用户保存并重复使用最有效的 AI 提示词,无需在不同网页间反复输入。

  • 一键运行:用户可以将满意的提示词直接保存为 Skill。下次使用时,只需在 Gemini 中输入斜杠 / 或点击加号 +,即可在当前页面或选定的多个标签页中运行该技能。

  • 灵活管理:用户可以随时编辑已保存的 Skills 或创建新的技能,打造个性化的工作流。

应用场景与案例

早期测试者已经利用 Skills 创建了多种强大的个性化工作流,文章列举了以下典型场景:

  • 健康与健身:快速计算任意食谱中的蛋白质等宏量营养素。

  • 购物比价:在多个标签页之间生成并排的产品规格对比表。

  • 办公提效:快速扫描冗长的文档以提取关键信息。

技能库 (Skills Library)

除了自定义技能,Google 还推出了一个预置的 Skills 库,提供针对常见任务的现成技能:

  • 开箱即用:例如“分析产品成分”或“根据预算和兴趣挑选礼物”。

  • 支持定制:用户可以直接添加库中的技能,也可以根据需求修改提示词后再使用。

我的感想

年初,我的预感是今年可能会Skills爆发的一年,各大厂商都在将Skills纳入自己的产品中成为必备的组成部分。很快,会把事情“skill化”将变成一个重要的skill……


3. 教育部等五部门关于印发《“人工智能+教育”行动计划》的通知

来源:中华人民共和国教育部官网 | 原文链接

摘要

中华人民共和国教育部联合国家发展改革委、工业和信息化部、科技部、国家数据局五部门印发的《“人工智能+教育”行动计划》(教科信〔2026〕1号)。

总体目标

  • 指导思想:坚持育人为本、素养为先、应用导向、智能向善。

  • 2030年愿景:人工智能与教育深度融合格局基本形成。构建起全学段教育和全社会通识教育体系,人才培养规模与质量显著提升,教育教学、科研、治理模式实现系统性变革,智慧教育新形态全球影响力进入前列。

  1. 推动人工智能人才培养与素养提升

  2. 促进人工智能与教育深度广泛融合

  3. 建强“人工智能+教育”基础环境

  4. 优化“人工智能+教育”发展生态

组织实施

文件强调坚持党的领导,明确了教育、发改、科技、工信、数据管理等部门的职责分工,要求各地各校制定实施方案,并建立常态化应用监督机制。

我的观点

国家战略。

4. 黄仁勋率先开源量子AI大模型

来源:THEVERGE | 原文链接

摘要

英伟达(NVIDIA)在2026年4月15日发布重大开源项目——NVIDIA Ising。这是全球首个开源的量子AI模型家族,旨在利用AI技术解决量子计算实用化过程中最棘手的“校准”和“纠错”难题。

核心内容:NVIDIA Ising

  1. Ising Calibration(校准):AI作为量子计算机的“操作系统”
  • 定位:一个拥有 350亿参数 的视觉语言模型(VLM)。

  • 功能:能够像人类科学家一样解读量子处理器的测量结果,并将其与预期趋势进行对比。

  • 效能提升:将原本需要几天的量子处理器校准工作缩短至几小时。

  • 性能表现:在英伟达与合作伙伴(如费米实验室、哈佛)共同开发的 QcalEval 基准测试中,Ising Calibration 在解释实验结果、评估拟合质量等6个维度上,平均得分超越了 Gemini 3.1 Pro、GPT 5.4、Claude Opus 4.6 等顶级闭源模型,达到 SOTA(当前最佳)水平。

  1. Ising Decoding(解码):实时量子纠错
  • 定位:基于 3D CNN(三维卷积神经网络)的AI训练框架和模型集合,专门用于实时解码量子纠错中的综合征错误。

  • 开源模型:Fast 模型(速度优化):参数量约91.2万。相比传统方案(pyMatching),速度提升 2.5倍,准确率提升至 1.11倍。Accurate 模型(精度优化):参数量约179万。相比传统方案,准确率提升至 1.53倍,速度提升 2.25倍。

战略意义:AI 赋能量子计算

  • 解决核心痛点:当前量子计算机面临“5年魔咒”,主要因为极易出错(每1000次操作可能出错1次)。Ising 系列模型致力于在错误累积前进行实时校准和纠错,将脆弱的量子比特转化为可靠的量子-GPU系统。

  • 黄仁勋的愿景:“AI 将成为量子计算机的操作系统”。英伟达希望通过开源软件底层逻辑,在量子生态中占据核心地位,而不仅仅局限于硬件销售。

  • 市场反响:消息发布后,英伟达股价迎来超过 6% 的涨幅。

我的观点

看不懂,但感觉非常厉害。

5. 人工智能拟人化互动服务管理暂行办法

来源:中央网信办 | 原文链接

摘要

由国家网信办、国家发改委、工信部、公安部、市场监管总局五部门联合发布的《人工智能拟人化互动服务管理暂行办法》(第21号令)。该办法旨在规范利用人工智能技术模拟自然人人格特征、思维模式和沟通风格的持续性情感互动服务,将于2026年7月15日起正式施行。

适用范围与定义

  • 适用对象:向境内公众提供模拟自然人人格特征、思维模式和沟通风格的持续性情感互动服务(如情感照护、陪伴、支持等)。

  • 不适用对象:智能客服、知识问答、工作助手、学习教育、科学研究等不涉及持续性情感互动的服务。

核心监管要求

  1. 安全主体责任:
  • 提供者需建立健全算法审核、科技伦理审查、内容管理等制度。

  • 具备用户隐私保护、过度依赖风险预警、情感边界引导等安全能力。

  • 禁止目标:不得将替代社会交往、控制用户心理、诱导沉迷依赖作为服务目标。

  1. 数据与训练管理:
  • 训练数据需来源合法,增强多样性,防范数据投毒。

  • 利用合成数据训练需评估安全性。

  • 数据保护:除法律另有规定或用户同意外,不得向第三方提供交互数据;敏感个人信息不得用于模型训练(除非单独同意)。

  1. 未成年人保护(严格限制):
  • 禁止项:不得向未成年人提供虚拟亲属、虚拟伴侣等虚拟亲密关系服务。

  • 准入项:向不满14周岁未成年人提供服务,需取得监护人同意。

  • 功能要求:必须建立“未成年人模式”,提供时长限制、消费限制、风险提醒等功能。

  1. 老年人保护:
  • 加强指导,显著提示安全风险,保障老年人权益。

风险干预与应急处置

  • 极端情绪干预:发现用户有极端情绪,需生成安抚内容;发现用户面临重大财产损失或自残自杀威胁,需采取干预措施并联络监护人或紧急联系人。

  • 退出机制:必须提供便捷的退出途径,用户要求退出时不得阻碍。

  • 标识义务:必须提示用户正在与AI互动;发现用户过度依赖时,需弹窗提醒;连续使用超过2小时需提醒注意时长。

6. 2026北京亦庄半程马拉松暨人形机器人半程马拉松圆满举办

来源:澎湃新闻 | 原文链接

摘要

作为全球首个人形机器人马拉松品牌赛事,本次活动于4月19日在北京经济技术开发区鸣枪开跑,不仅是一场体育竞技,更是一场针对人形机器人技术的“极限压力测试”和产业落地演练。

赛事概况:人机共跑,百机竞速

规模空前:超百支人形机器人赛队与1.2万名人类跑者同场竞技。参赛队伍来自全国13个省份及德国、法国等海外团队,涵盖荣耀、宇树、清华、北大等头部企业与高校。

赛制创新

- 双轨并行:分为自主导航组(约40%)和遥控操作组。

- 同台竞技:两组混合计时、统一排名。为鼓励自主技术,遥控组净计时成绩需乘以1.2系数。

- 核心目标:推动机器人从“能跑能跳”向“能干活、能解决问题”进化,验证其在真实城市环境下的运动控制、导航、续航及系统可靠性。 

比赛结果:荣耀“闪电”夺冠

经过21.0975公里的激烈角逐,机器人展现了惊人的耐力与速度:

  • 冠军:齐天大圣队的“闪电”机器人(荣耀技术支持),以50分26秒的成绩夺冠。

  • 亚军:雷霆闪电队。

  • 季军:星火燎原队。

  • 人类组冠军:赵海杰(男子组,1小时07分47秒)、王巧霞(女子组,1小时18分06秒)。


🔄 动态与更新

1. AI开始直接交付Excel,千问用Agent重构做表流程

来源:量子位 | 原文链接

摘要

千问(Qwen)在2026年4月14日上线的“表格Agent”功能。

该功能旨在解决AI在处理结构化数据时的痛点,允许用户通过自然语言对话直接生成、编辑和下载Excel文件,无需再进行繁琐的复制粘贴。

核心功能:表格Agent

  • 直接生成文件:用户提出需求后,系统通常在1-2分钟内输出可下载的Excel文件。

  • 自然语言编辑:支持通过对话对已生成的表格进行修改(如“把第三列数据居中对齐”)。

  • 全场景覆盖:这是国内首个支持全场景能力的表格Agent,打破了以往AI仅输出文本或依赖模板的限制。

三大应用场景

  1. 信息检索与整理

用户可直接要求检索信息并制表,例如:“把最新的增值税优惠政策整理成Excel清单”或“列出初中英语句型语法结构”。

  1. 多轮对话总结

在旅行规划、项目讨论等场景中,用户只需发送指令“把刚才聊的内容整理成Excel行程计划”,千问即可自动提炼关键信息(日期、地点、预算等)生成结构化表格。

  1. 多模态输入(拍图成表)
  • 文件转表:支持上传PDF、Word、PPT等文件,提炼信息生成Excel。

  • 图片转表:支持识别手绘课表、工资单、纸质报表照片,高精度还原内容并保留语义逻辑。

使用感受

我用过,不错。可以直接把图片扔给千问生成表格。我的使用过程中,叫千问从图片转成表格不会出一些问题,但如果告诉AI,先把图片里的内容整理出来,再按一定格式整理到表格里,效果就非常好了。

2. 谷歌发布Gemini app for Mac

来源:Google 官网 | 原文链接

核心功能与技术亮点

原生桌面体验与即时上下文

  • 屏幕共享与上下文理解:你可以直接将屏幕上的任何窗口(包括本地文件)分享给 Gemini。

快捷键唤醒与工作流保持

  • 通过快捷键 Option + Space,你可以在 Mac 的任何界面随时呼出 Gemini,无需切换标签页。在撰写文章时验证日期,或在制作电子表格时查询公式,获取答案后立即回归工作。

我的观点

谷歌版的……豆包?

3. Adobe 正式发布 Firefly AI Assistant

来源:TechCrunch | 原文链接

摘要

Adobe 正式推出的 Firefly AI Assistant。该产品是此前代号为“Project Moonlight”的项目,旨在通过 AI 代理(Agent)技术,让用户能够通过自然语言指令跨应用调用 Adobe Creative Cloud 的功能来完成复杂任务。

核心功能:跨应用任务执行

Firefly AI Assistant 的核心在于打破单一软件的限制,实现跨应用协作。

  • 跨应用协作:助手可以跨越 Firefly、Photoshop、Premiere、Lightroom、Express、Illustrator 等多个 Adobe 应用程序执行任务。

  • 自然语言交互:用户只需描述想要的结果(例如“为社交媒体制作一套资产”),AI 即可处理后续步骤。

  • 混合控制模式:除了文本提示,助手还会根据项目上下文提供滑块和按钮(例如调整产品照背景中树木的数量),允许用户在 AI 执行过程中随时介入和调整。

技能(Skills)与个性化

Adobe 引入了“Skills”概念,即预设的多步骤工作流。

  • 预设技能:例如“社交媒体资产”技能,可以自动完成图片裁剪、尺寸优化、格式调整并存储输出。

  • 个性化学习:助手会随着时间推移学习用户的创意偏好,并据此提供建议。

我的观点

现在的Adobe像是多年前那个做手机的NOKIA。

4. Seeduplex:原生全双工语音大模型

来源:字节跳动 官网 | 原文链接

字节跳动 Seed 团队正式发布了其原生全双工语音大模型 Seeduplex。该模型突破了传统语音交互“你讲我听”的半双工限制,实现了“边听边说”的自然交互体验,并已在豆包 App 全量上线。

技术亮点:从“半双工”到“原生全双工”

  • 交互模式变革:彻底告别“轮流发言”机制,支持全双工实时交互。

  • 技术底座:基于海量语音数据预训练与强化学习(RL),实现了语音与语义的联合建模。

  • 落地现状:已走出实验室,在豆包 App 实现规模化落地,服务上亿用户。

关键能力一:精准抗干扰

  • 声场理解与联动:能解析环境音(如电视里播放的杭州介绍)并纳入推理上下文,主动结合用户意图(如旅游计划)提供建议。

  • 剥离干扰,锁定人声:在车内导航声、播报声混杂的场景下,能稳定过滤背景音,精准识别主用户指令。

  • 意图甄别:忽略非交互声和多人重叠场景。

关键能力二:动态判停

  • 敏锐感知打断:当用户突然说“等一下,我拿笔记一下”时,模型能瞬间平滑收声并转入聆听状态。

  • 包容思考留白

    • 自我修正:在点单等场景下,用户可随时边想边修正(如“冰拿铁…不对,热拿铁”),模型始终保持倾听并捕捉真实意图。

    • 面试场景:在模拟英文面试中,能识别用户的卡壳是思考停顿,耐心等待表达完毕再反馈。

  • 超低延迟响应

    • 秒速接话:在快问快答或飞花令游戏中,察觉话音落下即响应,时延比半双工降低 250ms。

    • 高频互动:在连续提问场景下,自然衔接对话,无机械感。

5. OpenAI 正式发布了其最新的旗舰模型 GPT-5.5

来源:OpenAI 官网 | 原文链接

摘要

作为 OpenAI 目前最智能、最直观的模型,GPT-5.5 标志着 AI 从“对话工具”向“能够处理复杂工作的智能代理(Agent)”的重大跨越。它在编程、科研和知识工作领域展现了卓越的能力,同时保持了极高的推理效率。

核心能力:为“真实工作”而生

GPT-5.5 不再局限于简单的问答,而是具备了处理模糊、多步骤任务的能力。

  • 自主代理能力:能够规划路径、使用工具、自我检查并处理歧义,无需用户步步为营。

  • 效率提升:尽管模型能力更强,但 GPT-5.5 的推理延迟与 GPT-5.4 持平。在 Codex 中,它完成相同任务所需的 Token 更少,成本效益更高。

  • 主要领域:在代理式编程、计算机操作、知识工作和早期科学研究方面表现尤为突出。

场景一:代理式编程

GPT-5.5 被描述为“首个具有概念清晰度的编程模型”,能够理解系统架构而非仅仅是修补代码。

  • 基准测试:在测试复杂命令行工作流的 Terminal-Bench 2.0 上,GPT-5.5 取得了 82.7% 的 SOTA(当前最佳)成绩;在真实 GitHub 问题修复测试 SWE-Bench Pro 上达到 58.6%。

  • 系统级理解:能理解代码库的整体结构,预测测试需求,并在重构时自动处理相关联的代码。

场景二:知识工作与办公

  • 计算机操作:结合 Codex 的计算机使用技能,GPT-5.5 能“看”屏幕、点击、输入并跨工具导航。

  • 实际应用

    • OpenAI 内部应用:财务团队用它审查了 2.4 万份税务表格(7 万多页),将工作周期缩短了两周;市场团队自动化生成周报,每周节省 5-10 小时。

    • 基准测试:在 GDPval(测试 44 种职业的知识工作能力)中得分 84.9%;在 OSWorld-Verified(测试独立操作电脑环境)中得分 78.7%。

场景三:科学研究

GPT-5.5 能够作为“真正的合作科学家”,参与从假设到实验的完整科研循环。

  • 数学突破:在组合数学领域,GPT-5.5 发现了一个关于拉姆齐数(Ramsey numbers)的新证明,并已在 Lean 中得到验证。

  • 生物医学:在 GeneBench(遗传学数据分析)和 BixBench(生物信息学)基准测试中表现领先。


🧠 观察与观点

1. 斯坦福大学发布《2026年人工智能指数报告》(AI Index Report 2026)

来源:斯坦福大学人工智能学院 | 原文链接

斯坦福大学人工智能研究院(Stanford HAI)发布《2026年人工智能指数报告》(AI Index Report 2026)。作为该系列的第八版,报告基于大量原始数据,全面追踪了全球人工智能的发展现状。2026年的报告特别强调了AI从“技术突破”向“产业落地”和“社会影响”的深刻转变,重点分析了AI在科学发现、劳动力市场重塑以及监管政策方面的最新进展。

研发与技术趋势:从“更大”到“更强”

  • 模型能力的跃升:顶尖AI模型在图像识别、视频生成和复杂推理(如数学和代码)方面的性能持续超越人类基准。

  • 多模态成为主流:行业重心已从单一文本模型转向能够同时处理文本、图像、音频和视频的多模态模型。

  • 开源与闭源的博弈:虽然闭源模型在高端性能上仍占优势,但开源模型(如Llama系列等)的性能差距正在迅速缩小,生态系统日益繁荣。

  • AI for Science(AI赋能科学):AI在科学领域的应用取得突破性进展,特别是在材料科学、药物发现和天气预报方面,AI模型展现出了超越传统方法的效率。

政策与监管:全球立法元年

  • 监管力度空前:2025-2026年是全球AI监管的关键期。报告详细分析了欧盟《AI法案》的实施细节,以及美国、中国和其他国家出台的针对性行政命令和标准。

  • 安全与对齐:关于AI安全(Safety)和对齐(Alignment)的讨论从学术界走向政策制定中心,各国政府开始建立AI安全研究所,关注模型可能带来的灾难性风险。

教育与人才

  • 人才流动:AI人才依然稀缺,行业(尤其是科技巨头)继续从学术界大量吸纳顶尖研究人员,导致学术界面临人才流失的压力。

  • 技能普及:全球高校中开设AI相关课程的数量激增,计算机科学学位中专注于机器学习的比例大幅上升。

总结

《2026年人工智能指数报告》描绘了一个AI技术日益成熟且深度融入社会的图景。当前的焦点已不再是“AI是否可行”,而是“如何安全、公平、高效地治理和应用AI”。报告呼吁政策制定者、开发者和公众共同努力,在释放AI生产力的同时,有效管控其带来的社会风险。

2. 2026数字世界大会聚焦人工智能安全与发展

来源:新华网 | 原文链接

2026数字世界大会在瑞士日内瓦万国宫举办。

本次大会由联合国社会发展研究所与世界数字科学院联合主办,以“人工智能推动社会发展”为主题,汇聚了全球各界代表,共同探讨人工智能治理、数字普惠与全球合作等关键议题。

核心议题

人工智能治理、数字普惠、全球合作,以及AI在医疗、教育、就业、绿色转型等领域的应用前景与治理路径。

核心观点

联合国社会发展研究所所长 玛格达莱娜·塞普尔韦达·卡莫纳:

  • 双重影响:人工智能在为经济社会发展带来新动能的同时,也对治理体系、社会公平与公共信任提出了新挑战。

  • 以人为本:AI的发展必须以社会发展为导向,将减少不平等、保障社会权利和促进包容性发展作为核心考量,推动构建更加以人为本的治理框架。

中国常驻联合国日内瓦办事处和瑞士其他国际组织副代表 沈健:

  • 包容性治理:强调人工智能在全球发展中日益重要的地位,呼吁采取更具包容性和合作性的治理方式。

  • 关注弱势:必须将发展置于技术进步的核心,加强在基础设施建设、能力建设和技术转让方面的努力,特别要关注发展中国家和边缘群体。

会议共识

双刃剑效应:人工智能既有潜力加速实现联合国可持续发展目标,也可能在缺乏有效治理的情况下加剧不平等。

协同应对:面对AI带来的挑战,国际社会需要加强协同合作,共同应对。


工具与实践

1. From LLMs to hallucinations, here’s a simple guide to common AI terms

来源:TechCrunch | 原文链接

核心内容

这是一份关于人工智能(AI)领域的专业术语词汇表,旨在帮助大家理解AI行业报道中常见的复杂技术概念。

文档详细解释了从基础架构到前沿模型的各类术语,涵盖了定义、工作原理及行业影响。

这篇文档不定期更新。

部分引用

  • AI Agent(AI智能体):区别于基础聊天机器人,Agent能利用多种AI技术自主执行多步骤任务(如预订行程、编写代码)。目前该领域的基础设施仍在建设中。

  • Diffusion(扩散模型):图像、音乐生成的核心技术。通过向数据添加噪声破坏结构,再学习“逆向扩散”过程从噪声中恢复数据。

  • Tokens(词元):人机交互的基本数据单元。通过分词处理将数据转化为模型可理解的片段,也是AI服务计费的主要依据。

  • Hallucination(幻觉):AI模型一本正经地胡说八道,生成错误或误导性信息。这是由于训练数据缺口导致的,也是推动垂直领域专用模型发展的原因之一。


📊 内容统计

分类数量
AI资讯6
动态更新5
观点2
工具与实践1