20 Jan 11:05

Yunnglin

73e6b5c

v0.10.0 release Latest

Latest

What's Changed

Feat: Add EvalScope dashboard by @Yunnglin in #277

Including single-model evaluation results and multi-model comparison, refer to the 📖 Visualizing Evaluation Results for more details

Others

Add model-id in arguments by @Yunnglin in #274
Add ifeval and unify report format by @Yunnglin in #275
Add iquiz and use first metric by default for multi metrics by @Yunnglin in #288
Support specifying system prompt by @Yunnglin in #283
Bug-fix multi-metrics dataset by @Yunnglin in #282
Bug-fix mmlu read local data by @Yunnglin in #273

功能更新

主要更新

添加评测报告可视化，由 @Yunnglin 在 #277 中实现
- 包括单模型评估结果和多模型对比，更多详情请参考 📖 可视化评估结果

其他

在参数中添加 model-id，由 @Yunnglin 在 #274 中实现
添加 ifeval 评测基准；并统一报告格式，由 @Yunnglin 在 #275 中实现
添加 iquiz评测基准；支持多指标的评测集在展示结果时默认使用第一个指标的结果，由 @Yunnglin 在 #288 中实现
支持指定system prompt，由 @Yunnglin 在 #283 中实现
修复多指标数据集的错误，由 @Yunnglin 在 #282 中实现
修复 mmlu 读取本地数据的问题，由 @Yunnglin 在 #273 中实现

Full Changelog: v0.9.0...v0.10.0

Contributors

Yunnglin

Assets 2

03 Jan 09:11

Yunnglin

v0.9.0

2ec3fcc

v0.9.0 release

What's Changed

#253

Support for specifying model service API URL for evaluation: Evaluation can be performed on both local and remote model services.
Support for custom schema for mixed data evaluation: Combine different datasets for a more comprehensive assessment of model -capabilities with less data.
Add benchmark contribution guidelines: Users can add their own benchmarks to make the tool more powerful and beneficial for more people.

中文

#253

支持指定模型服务API URL评测：不论是本地模型还是远端模型服务都可以评测
支持自定义schema进行数据混合评测：混合不同的数据集，用更少的数据，更全面的评估模型能力
添加benchmark贡献指南：可以自行添加benchmark，让工具变的更强大，让更多人受益

Full Changelog: v0.8.2...v0.9.0

Assets 2

26 Dec 12:08

Yunnglin

v0.8.2

8184b34

v0.8.2 release

What's Changed

add user group by @Yunnglin in #251
fix perf seed by @Yunnglin in #254
add spawn env by @Yunnglin in #256
Fix: sglang API response does not contain 'object' field. by @tghfly in #260
fix parse response by @Yunnglin in #262
fix predict by @Yunnglin in #264
compat ragas 0.2.9 and remove chinese prompt cache by @Yunnglin in #265

New Contributors

@tghfly made their first contribution in #260

Full Changelog: v0.8.1...v0.8.2

Contributors

Yunnglin and tghfly

Assets 2

17 Dec 12:06

Yunnglin

v0.8.1

ea0ac5e

v0.8.1 release

What's Changed

Unify opencompass and vlmeval output dirs by @Yunnglin in #242
Perf add more metrics by @Yunnglin in #245
Perf add trust remote parameter by @Yunnglin in #246
Compat ms-swift<3.0 by @Yunnglin in #249
Fix humaneval for native eval by @Yunnglin in #248

中文版本

统一 opencompass 和 vlmeval 输出目录，作者：@Yunnglin，相关链接：#242
模型压测：增加更多指标，作者：@Yunnglin，相关链接：#245
模型压测：添加trust remote参数，作者：@Yunnglin，相关链接：#246
兼容 ms-swift<3.0，作者：@Yunnglin，相关链接：#249
修复本地评估的 humaneval 问题，作者：@Yunnglin，相关链接：#248

Full Changelog: v0.8.0...v0.8.1

Contributors

Yunnglin

Assets 2

14 Dec 17:30

wangxingjun778

v0.8.0

89a5143

v0.8.0 release

Release Notes

Optimize Native eval and remove template_type #231
The evalscope perf command supports the --outputs-dir configuration. #232
Support ragas 0.2.7 #234

Bug Fixes

Fix longwriter docs #239
Fix lint for longwriter #240
Fix lint #237
Unify perf output #238

Documentation Updates

Fix longwriter docs #239
Optimize Native eval and remove template_type #231

中文说明

特性

取消Native模式评测中template_type参数 #231
perf模块支持--output-dir #232
支持适配最新的ragas 0.2.7版本 #234

缺陷修复

修复longwriter代码示例，优化流程 #239
修复lint，以及longwriter的lint #240 #237

文档更新

更新longwriter文档 #239
更新Native评测模式的相关文档 #231

Assets 2

04 Dec 04:24

Yunnglin

v0.7.2

e8b2d4b

v0.7.2 release

Release Note

Remove pyarrow version requirement #225
Optimize warning info #223

中文说明

移除 pyarrow 版本要求 #225
优化 warning 信息 #223

Assets 2

28 Nov 18:30

wangxingjun778

v0.7.1

54eef61

v0.7.1 release

Release Notes

Add PMMEval benchmark #222

中文说明

特性

增加PMMEval评测集 #222

Assets 2

28 Nov 07:14

wangxingjun778

v0.7.0

2948eb7

v0.7.0 release

Release Notes

Refactor the perf module, more robust and easier to use. #178
Add speed benchmarking in the perf module. #178
Add multi-modal benchmark flickr8k in the perf module for speed benchmark. #211

Bug Fixes

Add timeout for download punkt.zip #206
Fix parallel for speed benchmarking in the perf module. #215

Documentation Updates

Update VLM-Eval doc #209
Update perf module doc #178 #211

中文说明

特性

重构perf模块，更鲁棒、更易用。 #178
在perf模块中添加速度基准测试。 #178
在perf模块中添加多模态基准 flickr8k 以进行速度基准测试。 #211

缺陷修复

修复下载punkt.zip的超时问题。 #206
修复perf模块中的速度基准测试并行问题。 #215

文档更新

更新VLM-Eval文档。 #209
更新perf模块文档。 #178 #211

Assets 2

22 Nov 06:34

wangxingjun778

v0.6.1

5e9c65c

v0.6.1 release

Release Notes

Add CMMLU benchmark #198
Add publish workflow #186
Adapt RAGAS v0.2.5 and update readme #205
Adapt MTEB v1.19 #196

Bug Fixes

Set datasets version: dataset>=3.0.0, <=3.0.1 #184
Set pyarrow version to <=17.0.0 to avoid installation issue on OSX. #187
Add timeout for download punkt.zip #206

Documentation Updates

Update OpenCompass list all datasets docs #199
Update RAGAS v0.2.5 docs #205

中文说明

特性

支持CMMLU benchmark #198
支持publish 流程 #186
适配RAGAS v0.2.5并更新文档 #205
适配 MTEB v1.19 #196

缺陷修复

设置datasets 版本，修复兼容性问题: dataset>=3.0.0, <=3.0.1 #184
设置 pyarrow版本：<=17.0.0 修复在OSX操作系统下的安装问题 #187
增加下载punkt.zip时的超时时间 #206

文档更新

更新OpenCompass作为backend时所支持的数据集列表文档 #199
更新RAGAS v0.2.5 文档 #205

Assets 2

08 Nov 05:51

wangxingjun778

v0.6.0

d289ece

Release v0.6.0

Release Notes

Support multi-modal RAG evaluation #149
- Add CLIP_Benchmark
- Add end-to-end multi-modal RAG evaluation in Ragas
To be compatible with Ragas v0.2.3 #165 #171
Support truncating input for CLIP models #163 #164
Support saving knowledge graphs when generating datasets in Ragas #175

Bug Fixes

Fix issue of abnormal metrics during CMTEB evaluation #157
Fix issue of GenerationConfig being None #173
Update datasets version constraints #184
Add publish workflow #186

Documentation Updates

Update VLMEvalKit documentation #166
Update multi-modal RAG blog #172

中文说明

特性

添加多模态RAG评测支持 #149
- 支持CLIP_Benchmark
- 支持Ragas端到端多模态RAG评测
兼容Ragas v0.2.3 #165 #171
支持CLIP模型截断输入 #163 #164
支持Ragas生成数据集时保存知识图谱 #175

缺陷修复

修复CMTEB评估时指标异常的问题 #157
修复GenerationConfig为None的异常 #173
更新datasets版本限制 #184
增加publish workflow #186

文档更新

更新VLMEvalKit文档 #166
更新多模态RAG博客 #172

Assets 2

Releases: modelscope/evalscope

v0.10.0 release

What's Changed

Feat: Add EvalScope dashboard by @Yunnglin in #277

Others

功能更新

主要更新

其他

Contributors

v0.9.0 release

What's Changed

中文

v0.8.2 release

What's Changed

New Contributors

Contributors

v0.8.1 release

What's Changed

中文版本

Contributors

v0.8.0 release

Release Notes

Bug Fixes

Documentation Updates

中文说明

特性

缺陷修复

文档更新

v0.7.2 release

Release Note

中文说明

v0.7.1 release

Release Notes

中文说明

特性

v0.7.0 release

Release Notes

Bug Fixes

Documentation Updates

中文说明

特性

缺陷修复

文档更新

v0.6.1 release

Release Notes

Bug Fixes

Documentation Updates

中文说明

特性

缺陷修复

文档更新

Release v0.6.0

Release Notes

Bug Fixes

Documentation Updates

中文说明

特性

缺陷修复

文档更新