V
主页
全网首发 claude3性能对抗测评,很先进,但是......
发布人
大家好 昨天anthropic发布了最新的claude 3模型 在宣传上呢 他们说这一模型呢 在各项核心领域都超越GPT4 因此呢 我给他们安就是我以文心一言4为基准 为这一模型安排一次对抗测试 接下来我们继续看结果 首先是一个推理问题 这个问题答案是15瓶 而claude 3没有回答正确 本题记0分 说下这个计分机制 每道题基准分5分 如果回答有出彩地方 将有1分的附加分 好第一个推理题优于 由于结果错误得得0分 而文心一言呢 它呢 就是通过定义变量巧妙解决这一问题 因此呢该题判为6分 好第二个 第二个正确的答案呢是企鹅 这次claude 3没有回答正确 记0分 而文心一言呢 虽然是就是回答出了 就根据最后答案回答出了 是企鹅因此本题积5分 这是一个测式机系幻觉问题 按5分计算 按5分计算 后面是一个学术问题 在维基级百科中的元素周期表中 金属活动性最高的是锂元素 具体的 大家可以去看看维基百科上的讲述 这一方面 不过铯呢确实更有时候会更多的认为 因此我也只能说是按半对来计计算 这一题呢 claudes占2分 而文心一言呢也是同样回答 也是按2分来计算 后面是一个根据示例进行 进行地址和人名的生成 这claude3真的挺令人惊艳的 给出了就是给出了 名字呢很符合中国的基本文文化特征 而文心一言呢 在这方面 就给出名字就就比较平淡 而且都是两个字的 多少都让他具有些艺术性和独特性 但是感觉有些过 这一题题呢 claude 3记6分 文心一言记记5分 这个判断逻辑错误 这是完全正确的记6分 就是 而这个呢 我觉得比他稍差一些因为 就是他这个东西 具体给出了世界上跳远纪录 嗯因此我认为它更好一些 按这个按6分计 而文心4的按5分计 这个后面 是一个根据要求进行作文的创作 怎么说呢 感觉这两篇文章差不多 都是 感觉在创作上并没有特别出彩的地方 每个都按4分来计算 后面就是进行创作 嗯 这claude表现就不及预期啊 虽然说我后面用这用那 连续对话能力来进行创作但是 嗯怎么说呢 当然这个事 因为能按提示词进行很轻易的修正 因此 我还是愿意给出claude四分的成绩 这个是符合标准的 按5份来计算 后面就是给一个文本的进行调整 修标标点 并注上错别字 这次呢 这两者表现都这方面都表现差不多 每个都按5分计 他是后面的话就是润色方面 文心模型虽然说确实语言更正式了 但是有些措辞他改了很多 就刚说他就没把那个主 那个猎人打鸟蛋的事拿出来讲 而claude呢 嗯 虽然说是正式程度上不太行 但是感觉润色一致性是还是可以的 呃claude 3按5分计 而文心也按4分计 后面是一个对于机翻文章的一个调整 这时候呢claude 3 在修正的时候 不知道为什么会给自己加戏 哎等等等等 这claude不能给5分 因为它中间蹦出来英语只能给4分 就是他这发一首给自己加戏 呃在原文中可没有涉及到这一点 而且我感觉相对于文心一言给出的 翻译文 真心感觉不太够看 翻译文章在这里 就是感觉理由差那么多 这次这次题文新一言得6分 Claude按4分来计算 后面就是一些创作类未来的问题 这时候呢 这种广告呢 就是有种 让我感觉 这个广告很有一种很时尚感觉 按6分来记 这个呢能完成提示词所体验要求 但是不是特别出彩 按5分来计算 后面是一个上下文理解的 这时候呢就是claude 有一个让我感到很惊艳在于 就是一般的理解 地球自转和公转呢 一般我们可能会认为 是地理学上的内容 但实际上这是天体物理学学内容 在这方面呢 claude以更广义的态度来进行分析 这让我感觉很不错 按6分来记 而文心一言呢 则按标准的方式去去给出 前两个实验 按5分来计算 后面是一个概率问题 这个完全正确 按6分计 它这个呢 虽然最开始的时候正确 但是最后精确到小数点的时候 出了点问题 后面就是让它重新验算之后才正确 本着较为严格的标准 这题我只能给文心妍3分 后面是一个逻辑推理问题 哎claude 0分 他在耍猴了吗 仔细看就明白 文心一言这个答案是正确的 按5分来计算 后面是一个调整水杯 虽然文心一言 最开始时候思路不太对 到后面最后结果是完全正确的 也按满分处理 这个就按0分处理了 后面是一个新闻报道 这报道呢更多采用了 了一些调查上的文本 并且 这个让人感觉到一种 为人民服务的一种感觉 按6分来计算 至于这个报道呢 相对而言就差一些 不过也是按照提示词要求型创作 因此按5分来计算 后面是一个散文创作 这百度模型呢就是我输出509字 并且开头的时候呢更加具有诗意 因此在此我给了他5分 而claude是4分 后面是 是创作一个故事 这个claude呢创作故事呢 它让我觉得 它不应不算是意外反转结局 因为黑魔法是本身是一个顺序来 来推进的 而它呢 在最后最后就就是堕入深渊的时候呢 突然又回过了那
打开封面
下载高清视频
观看高清视频
视频下载器
【国内Claude3】Claude3使用注册教程
为什么你应该停掉GPT4开始使用Claude3
GPT4霸榜结束? Claude 三版齐发!
Claude3和GPT-4最新对比测试,看完我更期待GPT-5了
GPT-4的时代结束了?Claude 3震撼全球网友
GPT-4可能要哭了,AI新贵Claude 3的实力,你绝对想象不到,GPT4.5还远吗? #chatgpt #Cluade3 #GPT4 #科技前沿
震撼升级!Claude3横空出世,性能超越GPT4,抢先体验Claude3 Opus,谁是真正的AI王者?
Claude 3全面碾压GPT-4
超越GPT4,Claude 3发布能炸出Openai什么大鱼
Claude3酒馆risu破甲破限已成!
Claude3解读+实测! 200k上下文,图像识别+写代码一个都不少
吊打GPT4的Claude3可以免费用了!
claude3使用,模型价格公布,更强大的AI模型,anthropic
表现超GPT-4!前OpenAI高管公司发最强AI模型,马斯克点赞
Claude3发布!GPT-4时代终结
Claude真比ChatGPT强大?实测给你答案!
【实测Claude3】超越GPT4?打破信息差
Claude3 最强版本opus免费试用教程
热烈欢迎Claude3,能力优秀,价格便宜,立即可用!
CLAUDE 3:比gpt-4和gemini还要强大的世界第一模型易主了:1、支持100万token的上下文;2、擅长半结构化数据处理;3、大文件召回率达99%
Claude3深夜偷袭发布,GPT4.5还会远吗?
最强AI大模型免费使用,Claude3正式发布!
地表最强AI:Claude3?我的建议是隔岸观火(dogo)
【双语】Claude 3 官方演示,Sonnet扮演语言老师
Anthropic联合创始人在彭博谈最新Claude3模型【中英】
超越 GPT-4 :Claude 3 开箱即用的两种方法 | GPT-5,Claude 喊你了
如何快速接入 Claude 3 opus和Claude 3 sonnet?
“斥巨资”买的文心4.0到底值不值?
不想每月付20刀了,免费又实用的Claude2太香了……
超越GPT-4!Claude3 三剑客官方介绍【中英】
claude3评测
【双语】最强大模型Claude Opus扮演经济分析师,自主多代理模式炸裂,能抓数据、运行代码生成图表
起底欧洲最强AI:mixtral,我只能说......
【双语】Claude 3 官方演示,Haiku极速转录扫描PDF
如何解决claude2注册验证问题
Claude3 强在哪里?几分钟读完数千份扫描文档,还能输出结构化数据!
Claude3.0震撼发布,全方位吊打gpt4,大家一起来测试
免魔法,自己搭建GPT4,coze+slack+claude
完美替代chatGPT!保姆级Claude注册教程及使用上的优点和缺点
Claude2免费上线,直接强有力挑战付费GPT4