OpenAI 的米拉-穆拉提（Mira Murati）说"不清楚 "Sora的训练数据从何而来

2024年3月17日12:18 UTC

OpenAI 公司的首席技术官米拉-穆拉提（Mira Murati）并不清楚该公司即将推出的视频生成人工智能模型 Sora 的数据来源。

3 月 13 日，在接受《华尔街日报》采访时，当被问及该公司 Sora 模型的数据来源时，穆拉提的回答含糊不清。

穆拉提回答说："我们使用了公开数据和授权数据。"这家估值 800 亿美元的公司是如何训练其即将推出的模型的。

《期刊》的乔安娜-斯特恩（Joanna Stern）接着问，Sora 是否使用了来自 YouTube、Instagram 或 Facebook 等社交媒体平台的数据进行训练。"穆拉提回答说："我不太清楚：

"你知道，如果这些数据是公开的--可以公开使用。但我不确定。我对此没有信心。

在转到另一个话题之前，斯特恩提到了 OpenAI 与图片库公司 Shutterstock 的合作关系，询问其数据是否可以用来训练 Sora。"我不想详细介绍使用的数据。但这些数据都是公开的或获得许可的数据，"穆拉提补充道。后来，她向本刊证实，Sora 使用了 Shutterstock 的数据。

人工智能模型是通过大量数据集（即训练数据集）进行训练的，这些数据集有助于模型学习识别模式、进行预测或理解语言。

穆拉蒂从 2018 年开始在 OpenAI 工作，领导着公司一些最受欢迎的项目，包括图像生成器模型 DALL-E 3、语音识别工具 Whisper 和公司最新版本的聊天机器人 GPT-4。2023 年 11 月，在 OpenAI 董事会赶走山姆-奥特曼（Sam Altman）后，她短暂接任临时首席执行官。

OpenAI 曾多次成为涉及其人工智能模型训练数据的法律诉讼的目标。2023 年 7 月，作家莎拉-西尔弗曼（Sarah Silverman）、理查德-卡德雷（Richard Kadrey）和克里斯托弗-戈登（Christopher Golden）对该公司提起诉讼，指控 ChatGPT 根据受版权保护的内容生成作者作品的摘要。

12 月，《纽约时报》在一份类似的版权侵权诉状中起诉了微软和 OpenAI，称这两家公司利用该报的内容训练人工智能聊天机器人。另一起集体诉讼在加利福尼亚州提起，指控 OpenAI 在未经用户同意的情况下，从互联网上获取用户私人信息来训练 ChatGPT。