-
Notifications
You must be signed in to change notification settings - Fork 23
[Bug] mmmu精度测评问题 #224
Copy link
Copy link
Open
Labels
bugSomething isn't workingSomething isn't workingcontent_check_failedissue content check failedissue content check failed
Description
操作系统及版本
xx
安装工具的python环境
在anaconda/miniconda创建的python虚拟环境
python版本
3.10
AISBench工具版本
xx
AISBench执行命令
xx
模型配置文件或自定义配置文件内容
xx
预期行为
No response
实际行为
mmmu精度测评存在问题:
- 可能存在除了ABCD之外的选项,但是当前是在数据集配置文件中写死了ABCD,需确认
- 数据集中的question-type字段除了多选还有open类型,该类数据没有选项,类似QA的格式,对于这两类数据的评估逻辑是不同的,当前没有考虑到open类型数据
- vlmevalkit实现不太可靠… 测出来精度很低,可参考evalscope;其他多模态数据集可能也存在相似的问题
前置检查
- 我已读懂主页文档的快速入门,无法解决问题
- 我已检索过FAQ,无重复问题
- 我已搜索过现有Issue,无重复问题
- 我已更新到最新版本,问题仍存在
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
bugSomething isn't workingSomething isn't workingcontent_check_failedissue content check failedissue content check failed