Yandex发布全球事件数据集,以帮助开发推荐系统?

Yandex启动了当前可用于促进全球研究和开发工作的主要推荐系统数据集。此开放数据集包括通过Yandex音乐传输服务收集了10个月的470亿匿名用户交互数据(听,我不喜欢)。该数据集包含匿名音频镶嵌向量,自然交互标记和备份的精确时间标记以进行真实的行为分析。为了维持事件的序列,引入了全局时间分割(GTS)的评估方法,并将基线算法用作参考。该数据集可在三个范围内获得:50亿,5亿事件的活动,5000万事件的事件,以满足不同的研发需求以及5000万事件。 Yandex是全球最大的推荐系统开放数据,YandExmusic 10亿互动数据,Yandexmusic 10亿次交互数据数据,Yandex,其中包含近50亿个匿名交互数据在用户和音乐传输平台中的音轨上。包括音乐。该数据集使用参考模型来促进研究和行业之间YAMBDA培训数据的质量和规模的扩展,例如传输服务,社交网络,电子商务等。数据集统计数据的跟踪分布很难反映现代1TB注册数据集的复杂性,没有正确的文档和标识符。 "The recommended systems are inherently closely related to confidential data. We explain. Data shortage leads to the appearancen of gaps. Models with excellent academic achievements tend to suffer performance in real applications. The integration of recommended systems and advanced architectures is also limited by the lack of adequate training data. With around 28 million monthly active users, MBDA provides a large anonymous data set of its music transmission service, solving the challenges facing the recommended systems.该数据集揭示了用户如何与Yandex音乐平台的内容进行交互。这以其高级MY WAVE推荐系统而闻名。这允许个性化的听觉体验适应每个用户的偏好。为了保护隐私,所有用户和音轨数据都是匿名的,数字标识符用于遵守隐私标准。 Cuser Ontenido统计数据集的相互作用历史的关键特征:收集了10个月的479亿用户交互数据。来自100万用户和匿名描述符的数据,有939万音频轨道。反馈有两种类型:隐式互动(听力)和显式互动(例如厌恶或毁灭)。它提供了有关音频嵌体向量(由卷积神经元网络生成的向量表示)和音轨的匿名信息。有一个“ is_organic”品牌可以区分独立发现音频线索或发现音频线索的用户粗略发现建议,促进了更详细的行为分析。所有事件都是时间品牌,它承认时间行为时间分析,它允许以更接近现实世界使用场景的方式评估模型。连词数据以Apache Parquet格式发布,与分布的加工系统(如Spark和Hadoop)以及熊猫和Polar等分析库兼容。 Nikolaisavushkin补充说:“ Yambda允许研究人员测试创新的假设并允许公司构建更智能的推荐系统。最终,用户可以从轻松找到满足其需求的歌曲,产品或服务中受益。” YAMBDA数据的版本和评估约为50,以满足计算机资源的不同需求和要求。它提供了三个尺度:数千万,5000万和5000万事件。我喜欢不同尺寸,用户数量和项目数量的项目数量! yambda编号-50M10.000934.05746.467,212881,456107.76yambda-500m100,0003,004,578466,512, 1039,033,9601,128,113 YAMBDA-5B1,000,0009,390,6234,649,567, 41189,334,60511,579,143使用全局时间分割(GTS)评估数据集,该数据集将数据通过时间戳记以维护一系列事件。与One -One -One不同,它消除了每个用户测试的历史记录的最终交互,GTS避免分解训练集和测试集之间的时间依赖性,从而模拟无法使用现实的条件来实现未来数据,从而使模型测试更加现实。使用全球时间分割(GTS)的评估方案基线的实现包括Mosspop,DeCalepop,ittemknn,IALS,IALS,BPR,SANSA和SASREC,提供参考点以比较新推荐的系统方法。这些基准通过标准指标进行评估,包括NDCG@K(质量分类),恢复@K(搜索效果),Coverage@k(目录多样性)。当印度河尝试共享有价值的工具和数据,它们都受益。研究人员获得真实的参考点。 Yambda是全球最大的推荐系统开放数据集,在Huggingface中启动。