全网首发 claude3性能对抗测评，很先进，但是......

发布人

大家好
昨天anthropic发布了最新的claude 3模型
在宣传上呢
他们说这一模型呢
在各项核心领域都超越GPT4
因此呢
我给他们安就是我以文心一言4为基准
为这一模型安排一次对抗测试
接下来我们继续看结果
首先是一个推理问题
这个问题答案是15瓶
而claude 3没有回答正确
本题记0分
说下这个计分机制
每道题基准分5分
如果回答有出彩地方
将有1分的附加分
好第一个推理题优于
由于结果错误得得0分
而文心一言呢
它呢
就是通过定义变量巧妙解决这一问题
因此呢该题判为6分
好第二个
第二个正确的答案呢是企鹅
这次claude 3没有回答正确
记0分
而文心一言呢
虽然是就是回答出了
就根据最后答案回答出了
是企鹅因此本题积5分
这是一个测式机系幻觉问题
按5分计算
按5分计算
后面是一个学术问题
在维基级百科中的元素周期表中
金属活动性最高的是锂元素
具体的
大家可以去看看维基百科上的讲述
这一方面
不过铯呢确实更有时候会更多的认为
因此我也只能说是按半对来计计算
这一题呢
claudes占2分
而文心一言呢也是同样回答
也是按2分来计算
后面是一个根据示例进行
进行地址和人名的生成
这claude3真的挺令人惊艳的
给出了就是给出了
名字呢很符合中国的基本文文化特征
而文心一言呢
在这方面
就给出名字就就比较平淡
而且都是两个字的
多少都让他具有些艺术性和独特性
但是感觉有些过
这一题题呢
claude 3记6分
文心一言记记5分
这个判断逻辑错误
这是完全正确的记6分
就是
而这个呢
我觉得比他稍差一些因为
就是他这个东西
具体给出了世界上跳远纪录
嗯因此我认为它更好一些
按这个按6分计
而文心4的按5分计
这个后面
是一个根据要求进行作文的创作
怎么说呢
感觉这两篇文章差不多
都是
感觉在创作上并没有特别出彩的地方
每个都按4分来计算
后面就是进行创作
嗯
这claude表现就不及预期啊
虽然说我后面用这用那
连续对话能力来进行创作但是
嗯怎么说呢
当然这个事
因为能按提示词进行很轻易的修正
因此
我还是愿意给出claude四分的成绩
这个是符合标准的
按5份来计算
后面就是给一个文本的进行调整
修标标点
并注上错别字
这次呢
这两者表现都这方面都表现差不多
每个都按5分计
他是后面的话就是润色方面
文心模型虽然说确实语言更正式了
但是有些措辞他改了很多
就刚说他就没把那个主
那个猎人打鸟蛋的事拿出来讲
而claude呢
嗯
虽然说是正式程度上不太行
但是感觉润色一致性是还是可以的
呃claude 3按5分计
而文心也按4分计
后面是一个对于机翻文章的一个调整
这时候呢claude 3
在修正的时候
不知道为什么会给自己加戏
哎等等等等
这claude不能给5分
因为它中间蹦出来英语只能给4分
就是他这发一首给自己加戏
呃在原文中可没有涉及到这一点
而且我感觉相对于文心一言给出的
翻译文
真心感觉不太够看
翻译文章在这里
就是感觉理由差那么多
这次这次题文新一言得6分
Claude按4分来计算
后面就是一些创作类未来的问题
这时候呢
这种广告呢
就是有种
让我感觉
这个广告很有一种很时尚感觉
按6分来记
这个呢能完成提示词所体验要求
但是不是特别出彩
按5分来计算
后面是一个上下文理解的
这时候呢就是claude
有一个让我感到很惊艳在于
就是一般的理解
地球自转和公转呢
一般我们可能会认为
是地理学上的内容
但实际上这是天体物理学学内容
在这方面呢
claude以更广义的态度来进行分析
这让我感觉很不错
按6分来记
而文心一言呢
则按标准的方式去去给出
前两个实验
按5分来计算
后面是一个概率问题
这个完全正确
按6分计
它这个呢
虽然最开始的时候正确
但是最后精确到小数点的时候
出了点问题
后面就是让它重新验算之后才正确
本着较为严格的标准
这题我只能给文心妍3分
后面是一个逻辑推理问题
哎claude 0分
他在耍猴了吗
仔细看就明白
文心一言这个答案是正确的
按5分来计算
后面是一个调整水杯
虽然文心一言
最开始时候思路不太对
到后面最后结果是完全正确的
也按满分处理
这个就按0分处理了
后面是一个新闻报道
这报道呢更多采用了
了一些调查上的文本
并且
这个让人感觉到一种
为人民服务的一种感觉
按6分来计算
至于这个报道呢
相对而言就差一些
不过也是按照提示词要求型创作
因此按5分来计算
后面是一个散文创作
这百度模型呢就是我输出509字
并且开头的时候呢更加具有诗意
因此在此我给了他5分
而claude是4分
后面是
是创作一个故事
这个claude呢创作故事呢
它让我觉得
它不应不算是意外反转结局
因为黑魔法是本身是一个顺序来
来推进的
而它呢
在最后最后就就是堕入深渊的时候呢
突然又回过了那

打开封面下载高清视频观看高清视频视频下载器

全网首发 claude3性能对抗测评，很先进，但是......

【国内Claude3】Claude3使用注册教程

为什么你应该停掉GPT4开始使用Claude3

GPT4霸榜结束？ Claude 三版齐发！

Claude3和GPT-4最新对比测试，看完我更期待GPT-5了

GPT-4的时代结束了？Claude 3震撼全球网友

GPT-4可能要哭了,AI新贵Claude 3的实力,你绝对想象不到,GPT4.5还远吗? #chatgpt #Cluade3 #GPT4 #科技前沿

震撼升级！Claude3横空出世，性能超越GPT4，抢先体验Claude3 Opus，谁是真正的AI王者?

Claude 3全面碾压GPT-4

超越GPT4，Claude 3发布能炸出Openai什么大鱼

Claude3酒馆risu破甲破限已成！

Claude3解读+实测! 200k上下文,图像识别+写代码一个都不少

吊打GPT4的Claude3可以免费用了！

claude3使用，模型价格公布，更强大的AI模型，anthropic

表现超GPT-4！前OpenAI高管公司发最强AI模型，马斯克点赞

Claude3发布！GPT-4时代终结

Claude真比ChatGPT强大？实测给你答案！

【实测Claude3】超越GPT4？打破信息差

Claude3 最强版本opus免费试用教程

热烈欢迎Claude3，能力优秀，价格便宜，立即可用！

CLAUDE 3：比gpt-4和gemini还要强大的世界第一模型易主了：1、支持100万token的上下文；2、擅长半结构化数据处理；3、大文件召回率达99%

Claude3深夜偷袭发布，GPT4.5还会远吗？

最强AI大模型免费使用，Claude3正式发布！

地表最强AI：Claude3？我的建议是隔岸观火（dogo）

【双语】Claude 3 官方演示，Sonnet扮演语言老师

Anthropic联合创始人在彭博谈最新Claude3模型【中英】

超越 GPT-4 ：Claude 3 开箱即用的两种方法 | GPT-5，Claude 喊你了

如何快速接入 Claude 3 opus和Claude 3 sonnet？

“斥巨资”买的文心4.0到底值不值？

不想每月付20刀了，免费又实用的Claude2太香了……

超越GPT-4！Claude3 三剑客官方介绍【中英】

claude3评测

【双语】最强大模型Claude Opus扮演经济分析师，自主多代理模式炸裂，能抓数据、运行代码生成图表

起底欧洲最强AI：mixtral，我只能说......

【双语】Claude 3 官方演示，Haiku极速转录扫描PDF

如何解决claude2注册验证问题

Claude3 强在哪里？几分钟读完数千份扫描文档，还能输出结构化数据！

Claude3.0震撼发布，全方位吊打gpt4，大家一起来测试

免魔法，自己搭建GPT4，coze+slack+claude

完美替代chatGPT！保姆级Claude注册教程及使用上的优点和缺点

Claude2免费上线，直接强有力挑战付费GPT4