OpenAI 的米拉-穆拉提(Mira Murati)说"不清楚 "Sora的训练数据从何而来
OpenAI 公司的首席技术官米拉-穆拉提(Mira Murati)并不清楚该公司即将推出的视频生成人工智能模型 Sora 的数据来源。
3 月 13 日,在接受《华尔街日报》采访时,当被问及该公司 Sora 模型的数据来源时,穆拉提的回答含糊不清。
穆拉提回答说:"我们使用了公开数据和授权数据。"这家估值 800 亿美元的公司是如何训练其即将推出的模型的。
《期刊》的乔安娜-斯特恩(Joanna Stern)接着问,Sora 是否使用了来自 YouTube、Instagram 或 Facebook 等社交媒体平台的数据进行训练。"穆拉提回答说:"我不太清楚:
在转到另一个话题之前,斯特恩提到了 OpenAI 与图片库公司 Shutterstock 的合作关系,询问其数据是否可以用来训练 Sora。"我不想详细介绍使用的数据。但这些数据都是公开的或获得许可的数据,"穆拉提补充道。后来,她向本刊证实,Sora 使用了 Shutterstock 的数据。
人工智能模型是通过大量数据集(即训练数据集)进行训练的,这些数据集有助于模型学习识别模式、进行预测或理解语言。
穆拉蒂从 2018 年开始在 OpenAI 工作,领导着公司一些最受欢迎的项目,包括图像生成器模型 DALL-E 3、语音识别工具 Whisper 和公司最新版本的聊天机器人 GPT-4。2023 年 11 月,在 OpenAI 董事会赶走山姆-奥特曼(Sam Altman)后,她短暂接任临时首席执行官。
OpenAI 曾多次成为涉及其人工智能模型训练数据的法律诉讼的目标。2023 年 7 月,作家莎拉-西尔弗曼(Sarah Silverman)、理查德-卡德雷(Richard Kadrey)和克里斯托弗-戈登(Christopher Golden)对该公司提起诉讼,指控 ChatGPT 根据受版权保护的内容生成作者作品的摘要。
12 月,《纽约时报》在一份类似的版权侵权诉状中起诉了微软和 OpenAI,称这两家公司利用该报的内容训练人工智能聊天机器人。另一起集体诉讼在加利福尼亚州提起,指控 OpenAI 在未经用户同意的情况下,从互联网上获取用户私人信息来训练 ChatGPT。