中国企业报集团主管主办

中国企业信息交流平台

微博 微信

专访图拉古:让 AI 以人类的方式进化,是我们的基本追求

2024-06-27 11:46 来源:商丘网 次阅读
 
专访图拉古:让 AI 以人类的方式进化,是我们的基本追求

  极具设计感的休闲装,扎起的长发,带着金链的细边眼镜,让多数人在第一次见到图拉古时,都感觉他不像人工智能领域的技术专家,反而有一身的“艺术范儿”。

  圈里的朋友和同事,仍会叫他“图导”,他身上也还保留着深深的导演气质。但近些年他却频繁现身技术圈,以主讲嘉宾身份受邀参加各种国家级的技术交流研讨会。即便是出席北京国际电影节、上海电影节、重庆电影科技周等场合,或以专家身份在清华大学、北京电影学院讲课,谈的也不再是电影创作,而全是关于下一代视听技术的未来。

  在6月22日华为举办的一年一度HDC 2024大会上,图拉古分享了《视频声效大模型催生空间智能》的主题演讲。作为在国内首个推出AI感知视听大模型的创始人,此次他分享的AI大模型发展路径备受关注,因为——

  我们对AI“智能”的定义,变了!

  当AI进化出类人“大脑”,走入“联级神经元”框架

  尽管2016年时,人工智能已经在世界围棋方面下赢了人类,但我们仍然要说,AI的智能训练还在早期,尤其是在对世界的感知能力方面几乎为零。

  人们能够看到色彩斑斓的蝴蝶、遥远的天空,或是听到夏夜的蛙叫虫鸣,看到起伏的麦浪就知道风正在吹过……这一切,其实对AI来说都毫无意义。

  现在人们大谈特谈的人工智能,尤其是火爆资本圈的AI大模型,基本没有脱离AIGC的范畴。

  AI生成式内容,本质上来说还是对原有数据的打乱与再重组,然后训练AI以人类习惯的结果呈现。

  比如语言大模型,就是按照人的语言习惯进行对话;AI生成图片,就是把物体A与物体B再组合,比如机器外观的蜘蛛,或是戴帽子的狗等;AI生成视频,同样也是把原有视频素材改头换面出现。而现在这些,却被看成了是AI的创意与智慧。

  但这种AI创首先是不稳定、不可控的,其次很多场景和人物,是很难通过文字描述而准确生成的,即使加再多的提示词,文字也难以代替画面。例如,当你想要一段70年代的中国街景视频时,就会因为缺乏基础的视频素材数据,而难以输出你想要的结果。

  所以,AI的这种创造力,不是真正的创造力,可以说是数据素材的积累与再组合。

  图拉古就是那个爱给AI产业泼冷水的“吹哨人”,他在很多公开场合曾提出过自己的质疑。在他看来,AI的时代一定会到来,而且进化的速度会超过人们的想象。但是,现在大多数凑热闹的AI通用大模型,会在5年后死掉90%。

  此次HDC 2024大会上,他提出了一种他的的AI理论:AI感知视听(人工智能视觉听觉)技术和全新改进的moe框架,称之为“联级神经元”框架,正是模拟人类的大脑多区域总决策行为。

  AI感知视听就是要让人工智能具有与人类相似的视觉、听觉感受,再通过联级神经元框架,像人的“大脑”中枢系统一样,将这些AI能力联接起来,实现对世界的记忆力、理解力、分析力。

  图拉古提出,moe最早是在 1991 年的论文中,那时候还是网络使用的一种方式,而在 AI 时代,它应该是一种类脑框架,需要把每一个专业的垂直 AI 模型作为一个神经元看待,这就像大脑一样,有负责语言的区域,有负责音乐的区域,有负责行动的区域,有负责平衡的区域,他们虽然都在一个头颅内,可是各自却是独立的,靠生物电通讯。

  图拉古提出的AI新理论,实际上是把AI的各项能力“化整为零”,再形成统一的认知,这样不仅能耗更低,而且可以训练的更精细。比如实现计算机的视觉分析能力,就可以只通过一台普通摄影机和普通的消费显卡完成,而不再需要巨量的算力支撑。

  图拉古表示,不要试图训练一个AI大模型,让它学会所有,就像家长不要奢望自己的孩子十项全能一样,你既要求他懂微积分,又要求他会拉小提琴,还要他会琴棋书画,精通武艺拳脚。

  图拉古和他的团队已经在AI感知视听大模型中证实了这一理论的可行性。天图万境已经拥有了全亚洲最大的电影级视听数据集和分割数据集,并正在与华为相关部门合作进行 AI 模型的专业训练。此次HDC 2024大会上,天图万境与华为云携手推出了“视频声效大模型”解决方案,正在向这一全新设计的“联级神经元”类脑框架的更前端展开探索。

  从电影领域到AI模型,跨行业复合思维在这个新时代十分重要

  图拉古的AI技术探索之路,始于拍电影。他应该算是电影导演中最懂计算机的,计算机里最懂视听语言的。

  开始,他是在拍摄科幻电影时,发现为什么所有好的视听制作的技术、设备,软件、硬件都被国外厂商所垄断,这激起了他自主研发的想法。

  当苹果掉到牛顿头上时,很多历史性的转折时刻就这么发生了。

  图拉古和他的团队开始是AI研发之路。例如AI图像分割,这个模型最早就是应用在电影抠像里。但是直到今天,人们才知道,原来天图万境的AI智能实时抠绿,并不是真正的抠绿。他们的抠像技术实际上是在训练AI 认识世界,让机器知道画面里的物体是什么,并理解在设定情景下什么物体应该保留或者去掉,甚至还可以执行其他特定的决策。

  人类看到的世界是立体的,而数字世界中的图像、视频是平面的。当然,现在借助一些MR头显设备、AR设备,人们可以穿梭到立体世界中看到三维的视频,但普通摄影机的拍摄还做不到这样的效果。人们会用激光雷达来测量立体世界,或是用多目组成类人左右眼的形式,计算视差,获得立体世界。

  可是我们知道,人类闭上一只眼睛的时候,也可以准确的拿到面前的水杯,也可以知道自己距离物体的距离,甚至一些电影里还描绘了独眼侠客的特异功能。人脑具有自己的经验记忆推理能力,可以在单眼下获得准确稳定的深度,而我们的机器正是需要这样的能力。天图万境先后推出空间计算框架的多次升级的版本,实现了通过单目摄像头实时获取稳定的空间感知图,实现了世界首个空间计算AI。

  这些技术刚出现时,多数人还不能理解什么是空间计算,什么是AI感知,所以在过去的日子里,人们以为天图万境是一家电影技术公司。因为他们研发的AI感知视听技术,最早应用在电影领域并取得了成功。但是,当AI技术逐渐走进大众视野,天图万境的AI感知视听大模型,才被更多人理解。原来,他们的抠绿不是抠绿,是在分割画面;他们的还原不是还原,而是在计算空间;他们的音频也不只是音频,而是让 AI理解世界。

  图拉古经常说自己是“帽子收集大师”,因为在人工智能领域的超前探索,让他获得了很多社会荣誉。但他最喜欢的,还是“科技工作者”这个头衔。作为跨电影、光学、集成电路、计算机语言与图形学等复合型专家,图拉古不仅是“超级电影工业”发起者和开拓者,也是虚拟制作体系的引领者,更是开创AI视听大模型先河的人。目前,该技术不仅在国内领先,在国际上也没有相关理论和技术出现,图拉古也成为了中国AI感知视听领域的“大神级”人物。

  图拉古曾说过:“一个伟大的时代,在一种良性循环中,徐徐展开;人类、AI、机器和谐相处,互帮互助的美好愿景,正在向我们阔步走来”。 那么,就让我们迎接这个美好的AI时代吧。

点赞()
上一条:超级码科技股份董事长顾惠波正式入选浙江省科技型企业家人才库2024-06-26
下一条:2024年全国企业家活动日郑州分会场活动成功举办2024-06-27

相关稿件

九年洗护老兵独白:“AI 很强大,但AI 取代不了我” 2024-04-24
部分AI系统已学会欺骗人类 2024-05-11
WPS 365全新发布,AI让协同办公更高效 2024-04-17
“以热代电”计算机可为AI运行降能耗 2023-09-14
热潮之下,让AI和数据真正发挥作用 2023-08-16
国务院国有资产管理委员会 中国企业联合会 中国企业报 中国社会经济网 中国国际电子商务网 新浪财经 凤凰财经 中国报告基地 企业社会责任中国网 杭州网 中国产经新闻网 环球企业家 华北新闻网 和谐中国网 天机网 中贸网 湖南经济新闻网 翼牛网 东莞二手房 中国经济网 中国企业网黄金展位频道 硅谷网 东方经济网 华讯财经 网站目录 全景网 中南网 美通社 大佳网 火爆网 跨考研招网 当代金融家杂志 借贷撮合网 大公财经 诚搜网 中国钢铁现货网 证券之星 融易在线 2014世界杯 中华魂网 纳税人俱乐部 慧业网 商界网 品牌家 中国国资报道 金融界 中国农业新闻网 中国招商联盟 和讯股票 经济网 中国数据分析行业网 中国报道网 九州新闻网 投资界 北京科技创新企业诚信联盟网 中国白银网 炣燃科技 中企媒资网 中国石油化工集团 中国保利集团公司 东风汽车公司 中国化工集团公司 中国电信集团公司 华为技术有限公司 厦门银鹭食品有限公司 中国恒天集团有限公司 滨州东方地毯集团有限公司 大唐电信科技股份有限公司 中国诚通控股集团有限公司 喜来健医疗器械有限公司 中国能源建设股份有限公司 内蒙古伊利实业集团股份有限公司 中国移动通信集团公司 中国化工集团公司 贵州茅台酒股份有限公司