当前位置: 首页 > 快讯 >   正文

OpenAI开源BrowseComp,重塑Agent浏览器评测

今天凌晨2点,OpenAI发布了一个专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准相当具有挑战性,连OpenAI自身的GPT-4o和GPT-4.5的准确率仅为0.6%和0.9%。即使是具备浏览器功能的GPT-4o,其准确率也只有1.9%。然而,OpenAI最新推出的智能体模型Deep Research的准确率达到51.5%,在自主搜索、信息整合和准确性校准等方面表现出色。(AIGC开放社区)

热门币种
BTC比特币
60,963.61 USDT
¥435,103.38
-2.72%
ETH以太坊
3,368.69 USDT
¥24,042.67
-0.3%
BNB币安币
570.68 USDT
¥4,073.00
-0.28%
USDT泰达币
1.02 USDT
¥7.25
-0.19%
SOL
135.96 USDT
¥970.36
+7.66%
USDC
1.00 USDT
¥7.15
-0.01%
TON
7.59 USDT
¥54.14
+4.55%
XRP瑞波币
0.47720 USDT
¥3.41
+0.48%
DOGE狗狗币
0.12210 USDT
¥0.87140
+2.43%
ADA艾达币
0.39050 USDT
¥2.79
+3.88%