【Whalepaper第95期-ML】自动模型评估: Contrastive Automated Model Evaluation

发布人

【ML】 论文题目：Contrastive Automated Model Evaluation

分享人：秋阳

时间：2024年3月2日 21:00

摘要：自动模型评估（AutoEval）框架为评估训练好的机器学习模型提供了可能性，而无需使用标记测试集。尽管有望取得一些不错的结果，但现有的 AutoEval 方法在很大程度上依赖于计算未标记测试集和训练集之间的分布偏移。我们认为，这种对训练集的依赖成为将该技术应用于实际 ML 开发的另一个障碍。在这项工作中，我们提出了对比式自动模型评估（Contrastive Automated Model Evaluation，CAME），这是一种新颖的自动评估框架，它在循环中摆脱了训练集的参与。CAME 的核心理念基于理论分析，将模型性能与对比损失联系起来。此外，通过广泛的经验验证，我们还设法在两者之间建立了一种可预测的关系，只需在未标记/未查看的测试集上进行推导即可。由此产生的 CAME 框架大大超越了之前的工作，为 AutoEval 建立了新的 SOTA 结果。

打开封面下载高清视频观看高清视频视频下载器

【Whalepaper第95期-ML】自动模型评估: Contrastive Automated Model Evaluation

【精校】AI提示词工程深入探讨| Anthropic官方圆桌 2024.9【中英字幕】

如何用眼动实验方法来做有趣的研究？

【Whalepaper第73期】推荐论文研读：POSO-用于大型推荐系统的个性化冷启动模块

【Whalepaper第100期】NLP论文研读：GraphTranslator-结合预训练的图模型与大型语言模型来处理预定义和开放式任务

【Whalepaper第50期】NLP:UCPhrase: Unsupervised Context-aware Quality Phrase Tagging

【Whalepaper第51期】CV论文研读：Thin-Plate Spline Motion Model for Image Animation

【李宏毅】不愧是B站公认最好的扩散模型【Diffusion Model】教程！深入浅出看完你就学懂！（附课件）

【Whalepaper第65期】推荐论文研读：基于邻域关系的对比学习改进图协同过滤

【Whalepaper第84期】LLM论文研读： ImageBind: One Embedding Space To Bind Them All

【Whalepaper第81期-向量检索专题分享】：可计算存储架构下的大规模近似最近邻搜索研究

杨毅远：开源学习与个人成长

【Whalepaper第52期】CV研读：NeRF: Representing Scenes as Neural Radiance Fields for VS

还得看吴恩达！一口气讲透CNN、RNN、GAN、LSTM、YOLO、transformer等六大深度学习神经网路算法！真的不要太爽~（AI人工智能丨机器学习）

【Whalepaper第83期】VSLAM论文研读：ORB-SLAM-一种通用且精确的单目SLAM系统

Diffusion模型的原理、使用和应用

【Whalepaper第44期】NLP论文分享：Que2Search

【Whalepaper第88期】推荐系统论文研读：GCE-GNN-全局上下文增强图神经网络

【Whalepaper第27期】cv论文分享：swin-transformer

【Whalepaper第29期】深度学习分享：Mutual Information Neural Estimation

复旦大学邱锡鹏教授：开源助力科研探索

【全198集】CV入门到起飞！一口气学完Python、OpenCV、深度学习基础、Pytorch、卷积神经网络、物体检测、图像分割、等八大计算机视觉必备基础！

【作者带你读论文-第1期】医学影像：MedLSAM 三维医学图像的任意模型定位与分割

整整200集，比刷剧还爽！深度学习必看圣经！李沐大神《动手学深度学习》最新版全套视频教程分享（人工智能/深度学习/计算机视觉）

AAAI会士，ACM会士，经典巨著《人工智能：现代方法》（AIMA）作者罗素2023年全球人工智能开发者先锋大会演讲：通用人工智能是否即将到来？

【FunRec】推荐系统中的多任务学习

【Whalepaper第22期】NLP分享：MixText？拿来吧你！

【Whalepaper第89期】多模态论文研读：Any-to-Any Generation via Composable Diffusion

【Whalepaper第46期】CV论文研读：From Two to One

2024年第65届IMO上，陶哲轩演讲表示AI技术其中以大型语言模型（LLMs）为代表也已经有大约 5 年的历史，但直到最近，AI输出才慢慢达到了人类的水平。

聪明方法学Python

AIWIN - OCR常见模型及评估指标

如何评估机器学习算法？

AI全息成像器（5）：nvdiffrast

李沐老师：GPT时代AI怎么学？动手学就是了！

【AI+X组队学习】Sora原理与技术实战：训练一个sora模型的准备工作,video caption和算力评估

【Whalepaper第38期】推荐算法论文研读：CBNS for Training Two-Tower Recommend

【Whalepaper第85期】NLP论文研读：大模型结构范式

【使用Pytorch从零实现Stable Diffusion模型】

这才是科研该学！2024公认最通俗易懂的【深度学习】教程，从入门到精通一口气学完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM

【Whalepaper第95期-ML】自动模型评估: Contrastive Automated Model Evaluation

【精校】AI提示词工程深入探讨| Anthropic官方圆桌 2024.9【中英字幕】

如何用眼动实验方法来做有趣的研究？

【Whalepaper第73期】推荐论文研读：POSO-用于大型推荐系统的个性化冷启动模块

【Whalepaper第100期】NLP论文研读：GraphTranslator-结合预训练的图模型与大型语言模型来处理预定义和开放式任务

【Whalepaper第50期】NLP:UCPhrase: Unsupervised Context-aware Quality Phrase Tagging

【Whalepaper第51期】CV论文研读：Thin-Plate Spline Motion Model for Image Animation

【李宏毅】不愧是B站公认最好的扩散模型【Diffusion Model】教程！深入浅出看完你就学懂！（附课件）

【Whalepaper第65期】推荐论文研读：基于邻域关系的对比学习改进图协同过滤

【Whalepaper第84期】LLM论文研读： ImageBind: One Embedding Space To Bind Them All

【Whalepaper第81期-向量检索专题分享】：可计算存储架构下的大规模近似最近邻搜索研究

杨毅远：开源学习与个人成长

【Whalepaper第52期】CV研读：NeRF: Representing Scenes as Neural Radiance Fields for VS

还得看吴恩达！一口气讲透CNN、RNN、GAN、LSTM、YOLO、transformer等六大深度学习神经网路算法！真的不要太爽~（AI人工智能丨机器学习）

【Whalepaper第83期】VSLAM论文研读：ORB-SLAM-一种通用且精确的单目SLAM系统

Diffusion模型的原理、使用和应用

【Whalepaper第44期】NLP论文分享：Que2Search

【Whalepaper第88期】推荐系统论文研读：GCE-GNN-全局上下文增强图神经网络

【Whalepaper第27期】cv论文分享：swin-transformer

【Whalepaper第29期】深度学习分享：Mutual Information Neural Estimation

复旦大学邱锡鹏教授：开源助力科研探索

【全198集】CV入门到起飞！一口气学完Python、OpenCV、深度学习基础、Pytorch、卷积神经网络、物体检测、图像分割、等八大计算机视觉必备基础！

【作者带你读论文-第1期】医学影像：MedLSAM 三维医学图像的任意模型定位与分割

整整200集，比刷剧还爽！深度学习必看圣经！李沐大神《动手学深度学习》最新版全套视频教程分享（人工智能/深度学习/计算机视觉）

AAAI会士，ACM会士，经典巨著《人工智能：现代方法》（AIMA）作者罗素2023年全球人工智能开发者先锋大会演讲：通用人工智能是否即将到来？

【FunRec】推荐系统中的多任务学习

【Whalepaper第22期】NLP分享：MixText？拿来吧你！

【Whalepaper第89期】多模态论文研读：Any-to-Any Generation via Composable Diffusion

【Whalepaper第46期】CV论文研读：From Two to One

2024年第65届IMO上，陶哲轩演讲表示AI技术其中以大型语言模型（LLMs）为代表也已经有大约 5 年的历史，但直到最近，AI输出才慢慢达到了人类的水平。

聪明方法学Python

AIWIN - OCR常见模型及评估指标

如何评估机器学习算法？

AI全息成像器（5）：nvdiffrast

李沐老师：GPT时代AI怎么学？ 动手学就是了！

【AI+X组队学习】Sora原理与技术实战：训练一个sora模型的准备工作,video caption和算力评估

【Whalepaper第38期】推荐算法论文研读：CBNS for Training Two-Tower Recommend

【Whalepaper第85期】NLP论文研读：大模型结构范式

【使用Pytorch从零实现Stable Diffusion模型】

这才是科研该学！2024公认最通俗易懂的【深度学习】教程，从入门到精通一口气学完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM

李沐老师：GPT时代AI怎么学？动手学就是了！