V
主页
大型语言模型在代码生成基准测试中表现出良好性能
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流 【论文标题】 ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks 【论文简述】 这篇论文介绍了大型语言模型(LLM)在代码生成基准测试中的有前景的表现。然而,这些基准测试的成果与实际应用之间存在明显差距,主要原因是实际编程依赖于现有的库。为了避免评估LLM从头开始编码的能力,本研究旨在提出一种新的评估方法,即LLM利用开源库完成机器学习任务。因此,我们提出了ML-Bench,这是一个广泛的基准测试,用于评估LLM在利用开源库中现有函数方面的有效性。该基准测试包含10044个样本,涵盖了14个著名的机器学习GitHub存储库中的130个任务。在这个设置中,给定一个特定的机器学习任务说明和相应的代码库中的README,LLM的任务是生成完成该任务的代码。这需要理解长且混合了语言和代码的文档,以及理解复杂的跨文件代码结构,引入了新的挑战。值得注意的是,尽管GPT-4相对于其他LLM有了显着改进,但它只能完成39.73%的任务,还有很大的改进空间。我们通过提出ML-Agent来解决这些挑战,ML-Agent旨在有效地导航代码库,定位文档,检索代码和生成可执行代码。实证结果显示,基于GPT-4构建的ML-Agent取得了进一步的改进。代码、数据和模型可在\urlhttps://ml-bench.github.io/上获取。 【引导阅读的问题】 如何通过利用开源库中现有函数的方法提高大型语言模型在代码生成任务中的效果? 【论文链接】 https://arxiv.org/pdf/2311.09835
打开封面
下载高清视频
观看高清视频
视频下载器
【代码生成定制】模型生成VxWorks风格的代码
【代码生成定制】多个参数以数组形式初始化
基于上下文调整的检索增强生成方法
基于双语文本的Skywork-13B大型语言模型研究
生成高质量的长视频:SEINE视频扩散模型
基于个性化教学原理的关闭源LLMs模型蒸馏方法
YatCC-现代小型编译器构建/毕昇杯RISC-V
面向大型语言模型的有约束文本生成方法
大型语言模型生成内容质量自评估提升选择性生成
Video-Bench: 全面评估视频大型语言模型的基准测试和工具包
个性化的大型语言模型写作助手PEARL
探索大型语言模型在工业芯片设计中的应用
CRUXEval:代码推理、理解和执行评估的新基准
永磁同步电机+磁粉制动器 代码生成
基于生成式强化学习的指令上下文增强模型:ICE-GRT
FreeBSD 14.1与DragonFlyBSD 6.4与NetBSD 10与Linux基准测试 2024.6.18
基于认知树的小型语言模型推理能力提升
【EMNLP 2023 最佳长论文奖】揭示大型语言模型上下文学习机制:标签词作为锚点的信息流视角
基于语言模型的知识探测和推理方法
大型语言模型潜在知识发现的挑战
语言模型对齐新方法:基于对比不似然训练的判断反馈
多语言大型语言模型训练数据集CulturaX
DSP代码生成平台PMSM速度三相电流波形实时监测
Densely Captioned Images: 评估视觉语言模型的新基准
从人类反馈中学习:纳什学习在大型语言模型中的应用
量化适应大型语言模型算法
利用FP8低位数据格式高效地训练大型语言模型
【小萌发现】数据清洗|神器: Data Wrangler帮你写代码?!
【AI Drive】ACL 2021:利用对比学习增强预训练语言模型的实体与实体间关系理解
闪电注意力-2:大型语言模型处理无限序列长度的高效方法
基于扩散模型的可控4D引导视频生成
大型语言模型:从训练到推理的全面综述
STM32F407VET使用硬件SPI驱动ST7735跑LVGL基准测试
2024最火的两个模型:Informer+LSTM两大时间序列预测模型,论文精读+代码复现,究极通俗易懂!——人工智能|AI|机器学习|深度学习
文本驱动的视频生成模型的动态定制
大型语言模型效率研究综述
超越GPT-4o的代码大模型! NEW AutoCoder LLM Beats GPT-4o! Best Opensource Coding LLM
ComfyUI-OMost,大型语言模型驱动图像区域合成,充分提示词的理解
大型语言模型在上下文学习中的可靠性提升:结合监督知识的方法
基于ChatGPT的模板生成方法用于图像分类