CtrSVDD: A Benchmark Dataset and Baseline Analysis for Controlled Singing Voice Deepfake Detection

发布时间:2026-02-09 01:08

简介

最近的歌声合成和转换技术发展需要强大的歌声深度伪造检测(SVDD)模型。目前的SVDD数据集面临着受控性有限、深度伪造方法多样化和许可限制等挑战。为了解决这些差距,我们介绍了CtrSVDD,一个大规模、多样化的真实和深度伪造唱歌声音的集合。这些声音是使用最先进的方法从公开可访问的唱歌声音数据集合成的。CtrSVDD包括47.64小时的真实和260.34小时的深度伪造唱歌声音,涵盖了14种深度伪造方法,并涉及164个歌手身份。我们还提供了一个灵活的前端特征基线系统,并对结构化的训练/开发/评估拆分进行了评估。实验表明特征选择的重要性,并凸显了需要对偏离训练分布的深度伪造方法进行泛化的需求。CtrSVDD数据集和基线系统是公开可访问的。

更多

目前尚无作者解读视频,你可点击下方【许愿开讲】按钮,许愿作者开讲~

解决问题

本论文旨在解决唱歌声音深度伪造检测(SVDD)模型的不足,包括受限的可控性、深度伪造方法的多样性和许可限制等问题。

关键思路

论文提出了CtrSVDD,一个大规模、多样化的唱歌声音数据集,包含47.64小时的真实唱歌声音和260.34小时的深度伪造唱歌声音,涵盖14种深度伪造方法和164个歌手身份。

其它亮点

论文还提出了一个基线系统,采用灵活的前端特征,并针对结构化的训练/开发/评估拆分进行评估。实验结果表明了特征选择的重要性,并强调了需要对更偏离训练分布的深度伪造方法进行泛化的需求。CtrSVDD数据集和基线系统是公开可访问的。

相关研究

在相关研究方面,最近有一些关于语音伪造检测的研究,如“Detecting Deepfake Speech with a Watermarking Technique”和“Detecting Deepfake Audio using Spectral Clustering and Convolutional Neural Networks”。

网址:CtrSVDD: A Benchmark Dataset and Baseline Analysis for Controlled Singing Voice Deepfake Detection https://m.mxgxt.com/news/view/1994942

相关内容

Center for Satellite Applications and Research
Sentiment Analysis
吕建明,华南理工大学 计算机科学与工程学院
4.X.H. Guo, C.C. Niu, Y. H. Wu andX.S. Liang*, Application of an M13 bacteriophage displaying tyrosine on the surface for detection of Fe3+and Fe2+ions, Virologica Sinica, 30(6), 410
我院胡涛教授团队在IEEE SLT 2024歌声深度伪造检测挑战赛中获奖
The BioID Face Database
Liu Yifei's three representative works and ratings analysis
Wishing Star Park Rules and Regulations
Where can I find open access MEG/EEG data?
周小明

随便看看