中国企业报集团主管主办

中国企业信息交流平台

微博 微信

为训练AI,OpenAI等科技巨头花式淘数据

2024-04-08 12:47 来源:环球时报 次阅读
 
为训练AI,OpenAI等科技巨头花式淘数据

【环球时报特约记者 甄翔】《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习。这是一条违反法律的“捷径”。

  报道称,早在2021年年底,OpenAI就面临培训AI模型的数据源几乎陷入枯竭的境地。该公司铤而走险,在明知YouTube母公司谷歌禁止用工具提取该平台内容的情况下,转录了100多万条视频并生成GPT-4模型的学习材料,OpenAI创始人之一布罗克曼也参与其中。讽刺的是,谷歌得知OpenAI的行为却并未制止,因为其也在提取YouTube平台内容训练AI模型。

  《纽约时报》援引消息人士的话表示,这可能侵犯视频版权,因为它们属于创作者。尽管如此,越来越多的科技公司冒着面临诉讼的风险也要“走捷径”。报道称,根据内部会议记录,Meta公司商定从互联网上收集受版权保护的数据,因为与出版商、艺术家、音乐家和新闻行业就版权内容谈判太花时间。

  报道称,领先的AI模型需要从涵盖多达3万亿字的数字文本池中学习。有分析称,预计互联网上现有可供培训AI模型的数据最快到2026年就会耗尽。

  《纽约时报》援引内部人士的消息称,谷歌法律部门已经要求起草新的政策,扩大该公司对消费者数据的用途。Meta的情况更严峻,其旗下脸书平台不是人们撰写文章的地方,可用数据不多。报道称,在一次讨论中,Meta高管谈到在非洲聘请承包商来汇总各种小说和非小说的文本摘要。Meta全球合作与内容副总裁格鲁丁表示:“唯一阻碍我们达到ChatGPT水平的因素就是数据量。”


点赞()
上一条:被索赔360亿元!谷歌将删除数十亿条用户数据2024-04-03
下一条:6G发展呼吁全球统一标准2024-04-17

相关稿件

再添国家级荣誉!淘云科技获评国家级专精特新“小巨人”企业 2023-07-26
热潮之下,让AI和数据真正发挥作用 2023-08-16
反垄断密集推进 美科技巨头与政府博弈加剧 2021-06-25
国际科技巨头公司“蒙眼狂奔”的时代或将不复存在 2021-09-03
科技巨头造车?不简单 传统车企代工?不甘心 2021-02-26
国务院国有资产管理委员会 中国企业联合会 中国企业报 中国社会经济网 中国国际电子商务网 新浪财经 凤凰财经 中国报告基地 企业社会责任中国网 杭州网 中国产经新闻网 环球企业家 华北新闻网 和谐中国网 天机网 中贸网 湖南经济新闻网 翼牛网 东莞二手房 中国经济网 中国企业网黄金展位频道 硅谷网 东方经济网 华讯财经 网站目录 全景网 中南网 美通社 大佳网 火爆网 跨考研招网 当代金融家杂志 借贷撮合网 大公财经 诚搜网 中国钢铁现货网 证券之星 融易在线 2014世界杯 中华魂网 纳税人俱乐部 慧业网 商界网 品牌家 中国国资报道 金融界 中国农业新闻网 中国招商联盟 和讯股票 经济网 中国数据分析行业网 中国报道网 九州新闻网 投资界 北京科技创新企业诚信联盟网 中国白银网 炣燃科技 中企媒资网 中国石油化工集团 中国保利集团公司 东风汽车公司 中国化工集团公司 中国电信集团公司 华为技术有限公司 厦门银鹭食品有限公司 中国恒天集团有限公司 滨州东方地毯集团有限公司 大唐电信科技股份有限公司 中国诚通控股集团有限公司 喜来健医疗器械有限公司 中国能源建设股份有限公司 内蒙古伊利实业集团股份有限公司 中国移动通信集团公司 中国化工集团公司 贵州茅台酒股份有限公司