Skip to main content

AI模型评测

本页面收录了各类AI模型评测工具,包括性能评测、安全评测、应用评测等工具。

热门推荐

性能评测

  • MLPerf - AI模型基准测试
  • SuperGLUE - 语言模型评测基准
  • MMLU - 大语言模型评测基准

安全评测

应用评测


# AI模型评测
## 应用评测

- [HELM](https://crfm.stanford.edu/helm/) - 斯坦福大学的AI模型评测平台
- [Hugging Face Leaderboard](https://huggingface.co/spaces/leaderboard) - AI模型排行榜
- [Papers with Code](https://paperswithcode.com/) - AI模型性能榜单

## 基准测试

- [MLPerf](https://mlcommons.org/en/inference-datacenter-11/) - AI模型基准测试
- [SuperGLUE](https://super.gluebenchmark.com/) - 语言模型评测基准
- [MMLU](https://github.com/hendrycks/test) - 大语言模型评测基准

## 安全评估

- [AI Risk Database](https://www.airisks.org/) - AI安全风险评估
- [Anthropic Safety](https://www.anthropic.com/safety) - AI安全评测
- [AI Vulnerability DB](https://avidml.org/) - AI漏洞数据库

## 模型对比

- [Chatbot Arena](https://chat.lmsys.org/) - AI对话模型评测
- [ImageGen Battle](https://imagegen-battle.com/) - AI图像模型对比
- [AI Model Reviews](https://aimodelreviews.com/) - AI模型评测社区

Monica AI助手

Monica (莫妮卡)是一款全功能的AI助手,配备了最先进的AI模型,如GPT-4、Claude、Bard等,用于帮助用户聊天、搜索、写作、翻译等多种功能。

立即体验

CursorAI编程知识星球

我正在「史密斯DeepSeekAI社」和朋友们讨论有趣的话题,你⼀起来吧?

立刻查看