网站首页 全球最实用的IT互联网站!

人工智能P2P分享Wind搜索发布信息网站地图标签大全

当前位置:诺佳网 > 软件工程 > 后端开发 > Python >

多维度实测DeepSeek新模型DeepSeek-V3-0324,编程能力

时间:2025-03-25 22:16

人气:

作者:admin

标签:

导读:大家好,我是六哥!今天必须给大伙唠唠DeepSeek全新v3。就在昨晚,DeepSeek悄没声儿地在Huggingface上发布了DeepSeek-V3-0324。虽说不是全新模型,可能力提升那叫一个大! 在Aider评测里,它是...

34299e9f-eb27-453a-96d3-52ef7c47b085.jpeg
大家好,我是六哥!今天必须给大伙唠唠DeepSeek全新v3。就在昨晚,DeepSeek悄没声儿地在Huggingface上发布了DeepSeek-V3-0324。虽说不是全新模型,可能力提升那叫一个大!

在Aider评测里,它是排名第二的非推理模型,仅次于Claude-3.7-Sonnet(no thinking),好多外国网友都惊掉了下巴,直呼不可思议。

现在,大家在不少地方都能用上DeepSeek-V3-0324。官方那边,在DeepSeek官方网页、APP和小程序,关闭深度思考就能用,API接口和使用方式跟以前一样。第三方平台里,Cline、POE等也都支持,估计后续还会有更多。

最近,我对DeepSeek-V3、DeepSeek-V3-0324,还有Claude-3.5-Sonnet、Claude-3.7-Sonnet的编码能力做了多维度实测,接下来就给大家详细讲讲。

一、意图识别测试

我先给模型们下达“创建电商登录页面”的指令,就想看看它们对这种模糊需求的理解能力咋样。

用Doubao-1.5-pro模型和DeepSeek-V3-0324来对比。

Doubao-1.5-pro表现

代码区

效果

DeepSeek-V3-0324表现

代码区

效果区

DeepSeek-V3-0324表现亮眼,给出的页面几乎涵盖了登录页面的最佳实践,显然更强!

二、UI审美测试

以往,除了Doubao-1.5-pro,其他模型的UI审美都不太在线。我就给它们出了两道题,分别是“帮我写一个拟态风格的天气卡片”和“帮我写一个孟菲斯风格的天气卡片”。

Doubao-1.5-pro效果

DeepSeek-V3-0324效果

从用户视角出发,在拟态风格天气卡片测试里,DeepSeek-V3-0324和Doubao-1.5-pro表现不相上下。而在孟菲斯风格天气卡片测试中,DeepSeek-V3-0324对提示词的遵循度最高,最符合要求。

三、多种编程语言测试

前面测试用的都是HTML语言,这次我选了JS和Python两种编程语言。让模型们用p5.js写一个脚本,实现三个不同颜色的小球在球体内做不规则运动,且小球不能超过球体。

Doubao-1.5-pro效果

DeepSeek-V3-0324效果

结果只有DeepSeek-V3-0324和Doubao-1.5-pro满足要求,Doubao-1.5-pro生成的页面小球不会动。

四、长上下文测试

我还给模型们布置了一项大任务,让它们以全栈工程师的身份,开发一个“冥想”iOS App,输出一套完整的APP原型图。DeepSeek-V3-0324一次对话就能生成800+行代码,还真把所有内容整合到一个html文件里展示交互。

Doubao-1.5-pro效果

DeepSeek-V3-0324效果

一番测试下来,DeepSeek-V3-0324相比Doubao-1.5-pro,编程能力有了质的飞跃,在前端场景代码生成上,真的很不错,但在非推理模型里,它是最接近Claude-3.7-Sonnet的。我现在就盼着DeepSeek能进一步提升多模态能力,要是图片识别功能再增强,肯定能帮更多人入门AI编程。这2个月过去,DeepSeek又制造了新的“Deepseek时刻”!

优秀不够,你是否无可替代

软件测试交流QQ群:721256703,期待你的加入!!

欢迎关注我的微信公众号:软件测试君


温馨提示:以上内容整理于网络,仅供参考,如果对您有帮助,留下您的阅读感言吧!
相关阅读
本类排行
相关标签
本类推荐

CPU | 内存 | 硬盘 | 显卡 | 显示器 | 主板 | 电源 | 键鼠 | 网站地图

Copyright © 2025-2035 诺佳网 版权所有 备案号:赣ICP备2025066733号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信