今天凌晨2点,OpenAI发布了一个专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准相当具有挑战性,连OpenAI自身的GPT-4o和GPT-4.5的准确率仅为0.6%和0.9%。即使是具备浏览器功能的GPT-4o,其准确率也只有1.9%。然而,OpenAI最新推出的智能体模型Deep Research的准确率达到51.5%,在自主搜索、信息整合和准确性校准等方面表现出色。(AIGC开放社区)
上一篇:美联储柯林斯:关税推高美国商品价格,可能造成美联储推迟降息
下一篇:美联储柯林斯:关税可能使核心通胀在今年“远超”3%