数据集卡片 for SoccerNet-Echoes

数据集详情

数据集描述

SoccerNet-Echoes 是一个足球比赛的音频解说数据集,由 SimulaMet 在 AI-Storyteller 项目下策划。该数据集由挪威研究委员会(项目编号 346671)资助,并由 SoccerNet 团队共享。数据集支持多种语言,包括英语、西班牙语、俄语、德语、法语、土耳其语、意大利语、波兰语、波斯尼亚语和匈牙利语,并采用 CC BY 4.0 许可。

策划者: SimulaMet,HOST 部门(AI-Storyteller 项目)

资助者: 挪威研究委员会,项目编号 346671

共享者: SoccerNet 团队

语言(NLP): 英语、西班牙语、俄语、德语、法语、土耳其语、意大利语、波兰语、波斯尼亚语、匈牙利语

许可: CC BY 4.0

数据集来源

主页: GitHub - SoccerNet-Echoes

论文: SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset

用途

直接用途

该数据集主要用于:

多模态事件检测: 结合音频提示和视觉数据,以改善体育视频中的事件检测。

比赛总结: 使用自动语音识别(ASR)转录来帮助总结足球比赛。

非适用用途

该数据集不适用于:

医学诊断: 该数据集不适合医学应用。

非体育事件分析: 该数据集专为足球设计,可能不适用于其他类型的事件,除非进行进一步修改。

数据集结构

数据集包括使用多种 Whisper ASR 模型对足球比赛解说的转录和使用 Google Translate 将非英语解说翻译成英语。该数据集在 HuggingFace 中的结构包括五个列:段索引、开始和结束时间、文本(转录或翻译)和游戏路径(表示为字符串)。该数据集分为三个子集(v1、v2 和 v3 版本的 Whisper),每个子集进一步分为“original”(ASR 生成的)和“en”(英语翻译)。

数据集创建

策划理由

该数据集是为了增强 SoccerNet 数据集,通过自动语音识别(ASR)转录和使用 Google Translate 将非英语解说翻译成英语,从而实现对足球比赛更丰富和更全面的理解。

源数据

数据收集和处理

音频从 SoccerNet 数据集中的足球比赛广播视频中收集。音频使用多个 Whisper ASR 模型(large-v1、large-v2 和 large-v3)进行转录,创建了一个全面的转录数据集。Google Translate 用于将非英语解说翻译成英语。

源数据生产者

源数据生产者是足球比赛的广播员和解说员。

标注

标注过程

转录由 Whisper ASR 模型自动生成。Google Translate 用于将非英语解说翻译成英语。未来计划进行人工验证和修正转录。

标注者

Whisper ASR 模型(转录)

Google Translate(翻译)

作者/人类(用于验证缺少比赛音频或解说的半场)

个人和敏感信息

该数据集包含公开可用的足球比赛解说,不被视为敏感信息。它不包括游戏上下文之外的个人数据。

偏差、风险和限制

转录准确性: ASR 模型可能在转录中引入错误。

幻觉: 在嘈杂环境中,尤其是重复短语会降低转录质量。

音频质量: 音频质量的变异性可能影响转录准确性。

人工验证: 当前数据集中缺乏人工验证的标注。

建议

用户应意识到潜在的偏差和限制,如转录错误和幻觉。高级音频预处理和人工验证可以帮助缓解这些问题。

过滤幻觉

用户应注意转录错误和幻觉。最常见的问题是无端重复短语和单词,尤其是在音频输入缺少人类语音、过于嘈杂或包含音乐的情况下。这些条件挑战了模型的转录准确性,但可以通过简单的过滤方法缓解:删除具有相同文本的连续条目,并仅保留每个唯一文本的首次出现。强烈建议在下游应用中使用连续条目过滤和混合选择方法以获得更好的 ASR。

引用

BibTeX:

bibtex

@article{gautam2024soccernet,

author = {Gautam, Sushant and Sarkhoh, Mehdi Houshmand and Held, Jan and Midoglu, Cise and Cioppa, Anthony and Giancola, Silvio and Thambawita, Vajira and Riegler, Michael A. and Halvorsen, P{aa}l and Shah, Mubarak},

title = {{SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset}},

journal = {arXiv},

year = {2024},

month = may,

eprint = {2405.07354},

doi = {10.48550/arXiv.2405.07354}

}

APA:

Gautam, S., Sarkhoh, M. H., Held, J., Midoglu, C., Cioppa, A., Giancola, S., ...Shah, M. (2024). SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset. arXiv, 2405.07354. Retrieved from https://arxiv.org/abs/2405.07354v1

术语表

ASR(自动语音识别): 将口语转换为文本的技术。

多模态分析: 结合多种类型的数据,如音频和视觉,进行更全面的分析。

Whisper ASR 模型: OpenAI 开发的一系列自动语音识别模型。

更多信息

有关更多详细信息,请访问 SoccerNet-echoes GitHub 仓库 或联系数据集的作者。

数据集卡片作者

Sushant Gautam, sushant@simula.no

数据集卡片联系

Sushant Gautam, sushant@simula.no