在2026年AI算力爆发式增长的背景下,教育科技领域正面临根本性变革。传统标准化测试对微积分、阅读理解等硬技能的评估已形成成熟体系,但对"团队协作""创新思维"等软实力的测量始终缺乏有效工具。这种能力鸿沟随着AI时代的职场需求变化日益凸显——据世界经济论坛预测,到2030年,持久技能将占据职场核心竞争力的76%。 谷歌研究团队创新的Vantage系统,依托当代最先进的LLM基础设施,构建了"执行LLM"的独特架构。与过往PISA测试采用的脚本化交互不同,该系统通过单一基座模型协调多个AI代理,能自主生成符合教育心理学标准的动态对话。在冲突解决场景测试中,AI会主动制造认知冲突,这种类人化的交互模式使得测评结果具备生态效度的同时,保持了心理测量学要求的严谨性。
文章图片 2
值得注意的是,该研究采用了双盲对照实验设计。188名Z世代受试者与AI完成的373次对话记录显示,由NYU专家与AI评分系统双重验证的数据相关性达到0.87。特别是在创造性思维维度,统一协调的执行LLM架构比独立代理系统的评估准确率提升32%,这验证了大模型在复杂认知评估中的独特优势。