Granary 是由英伟达多地研究团队于 2025 年发布的一个大规模多语种语音数据集,相关论文成果为「Granary: Speech Recognition and Translation Dataset in 25 European Languages」,旨在为多语种 ASR/AST 模型提供高质量训练与评测素材。
该数据集包含约 100 万小时的高质量伪标记 ASR 语音数据,覆盖 25 种欧洲语言(含 23 种欧盟语言、以及乌克兰语和俄语)。数据来自公开语音语料并经统一的伪标注与质量过滤流程处理。


雷达卡




京公网安备 11010802022788号







