专访图拉古：让 AI 以人类的方式进化，是我们的基本追求

专访图拉古：让 AI 以人类的方式进化，是我们的基本追求: 2024-06-27 11:46 来源：商丘网次阅读; 分享：

　　极具设计感的休闲装，扎起的长发，带着金链的细边眼镜，让多数人在第一次见到图拉古时，都感觉他不像人工智能领域的技术专家，反而有一身的“艺术范儿”。

　　圈里的朋友和同事，仍会叫他“图导”，他身上也还保留着深深的导演气质。但近些年他却频繁现身技术圈，以主讲嘉宾身份受邀参加各种国家级的技术交流研讨会。即便是出席北京国际电影节、上海电影节、重庆电影科技周等场合，或以专家身份在清华大学、北京电影学院讲课，谈的也不再是电影创作，而全是关于下一代视听技术的未来。

　　在6月22日华为举办的一年一度HDC 2024大会上，图拉古分享了《视频声效大模型催生空间智能》的主题演讲。作为在国内首个推出AI感知视听大模型的创始人，此次他分享的AI大模型发展路径备受关注，因为——

　　我们对AI“智能”的定义，变了!

　　当AI进化出类人“大脑”，走入“联级神经元”框架

　　尽管2016年时，人工智能已经在世界围棋方面下赢了人类，但我们仍然要说，AI的智能训练还在早期，尤其是在对世界的感知能力方面几乎为零。

　　人们能够看到色彩斑斓的蝴蝶、遥远的天空，或是听到夏夜的蛙叫虫鸣，看到起伏的麦浪就知道风正在吹过……这一切，其实对AI来说都毫无意义。

　　现在人们大谈特谈的人工智能，尤其是火爆资本圈的AI大模型，基本没有脱离AIGC的范畴。

　　AI生成式内容，本质上来说还是对原有数据的打乱与再重组，然后训练AI以人类习惯的结果呈现。

　　比如语言大模型，就是按照人的语言习惯进行对话;AI生成图片，就是把物体A与物体B再组合，比如机器外观的蜘蛛，或是戴帽子的狗等;AI生成视频，同样也是把原有视频素材改头换面出现。而现在这些，却被看成了是AI的创意与智慧。

　　但这种AI创首先是不稳定、不可控的，其次很多场景和人物，是很难通过文字描述而准确生成的，即使加再多的提示词，文字也难以代替画面。例如，当你想要一段70年代的中国街景视频时，就会因为缺乏基础的视频素材数据，而难以输出你想要的结果。

　　所以，AI的这种创造力，不是真正的创造力，可以说是数据素材的积累与再组合。

　　图拉古就是那个爱给AI产业泼冷水的“吹哨人”，他在很多公开场合曾提出过自己的质疑。在他看来，AI的时代一定会到来，而且进化的速度会超过人们的想象。但是，现在大多数凑热闹的AI通用大模型，会在5年后死掉90%。

　　此次HDC 2024大会上，他提出了一种他的的AI理论：AI感知视听(人工智能视觉听觉)技术和全新改进的moe框架，称之为“联级神经元”框架，正是模拟人类的大脑多区域总决策行为。

　　AI感知视听就是要让人工智能具有与人类相似的视觉、听觉感受，再通过联级神经元框架，像人的“大脑”中枢系统一样，将这些AI能力联接起来，实现对世界的记忆力、理解力、分析力。

　　图拉古提出，moe最早是在 1991 年的论文中，那时候还是网络使用的一种方式，而在 AI 时代，它应该是一种类脑框架，需要把每一个专业的垂直 AI 模型作为一个神经元看待，这就像大脑一样，有负责语言的区域，有负责音乐的区域，有负责行动的区域，有负责平衡的区域，他们虽然都在一个头颅内，可是各自却是独立的，靠生物电通讯。

　　图拉古提出的AI新理论，实际上是把AI的各项能力“化整为零”，再形成统一的认知，这样不仅能耗更低，而且可以训练的更精细。比如实现计算机的视觉分析能力，就可以只通过一台普通摄影机和普通的消费显卡完成，而不再需要巨量的算力支撑。

　　图拉古表示，不要试图训练一个AI大模型，让它学会所有，就像家长不要奢望自己的孩子十项全能一样，你既要求他懂微积分，又要求他会拉小提琴，还要他会琴棋书画，精通武艺拳脚。

　　图拉古和他的团队已经在AI感知视听大模型中证实了这一理论的可行性。天图万境已经拥有了全亚洲最大的电影级视听数据集和分割数据集，并正在与华为相关部门合作进行 AI 模型的专业训练。此次HDC 2024大会上，天图万境与华为云携手推出了“视频声效大模型”解决方案，正在向这一全新设计的“联级神经元”类脑框架的更前端展开探索。

　　从电影领域到AI模型，跨行业复合思维在这个新时代十分重要

　　图拉古的AI技术探索之路，始于拍电影。他应该算是电影导演中最懂计算机的，计算机里最懂视听语言的。

　　开始，他是在拍摄科幻电影时，发现为什么所有好的视听制作的技术、设备，软件、硬件都被国外厂商所垄断，这激起了他自主研发的想法。

　　当苹果掉到牛顿头上时，很多历史性的转折时刻就这么发生了。

　　图拉古和他的团队开始是AI研发之路。例如AI图像分割，这个模型最早就是应用在电影抠像里。但是直到今天，人们才知道，原来天图万境的AI智能实时抠绿，并不是真正的抠绿。他们的抠像技术实际上是在训练AI 认识世界，让机器知道画面里的物体是什么，并理解在设定情景下什么物体应该保留或者去掉，甚至还可以执行其他特定的决策。

　　人类看到的世界是立体的，而数字世界中的图像、视频是平面的。当然，现在借助一些MR头显设备、AR设备，人们可以穿梭到立体世界中看到三维的视频，但普通摄影机的拍摄还做不到这样的效果。人们会用激光雷达来测量立体世界，或是用多目组成类人左右眼的形式，计算视差，获得立体世界。

　　可是我们知道，人类闭上一只眼睛的时候，也可以准确的拿到面前的水杯，也可以知道自己距离物体的距离，甚至一些电影里还描绘了独眼侠客的特异功能。人脑具有自己的经验记忆推理能力，可以在单眼下获得准确稳定的深度，而我们的机器正是需要这样的能力。天图万境先后推出空间计算框架的多次升级的版本，实现了通过单目摄像头实时获取稳定的空间感知图，实现了世界首个空间计算AI。

　　这些技术刚出现时，多数人还不能理解什么是空间计算，什么是AI感知，所以在过去的日子里，人们以为天图万境是一家电影技术公司。因为他们研发的AI感知视听技术，最早应用在电影领域并取得了成功。但是，当AI技术逐渐走进大众视野，天图万境的AI感知视听大模型，才被更多人理解。原来，他们的抠绿不是抠绿，是在分割画面;他们的还原不是还原，而是在计算空间;他们的音频也不只是音频，而是让 AI理解世界。

　　图拉古经常说自己是“帽子收集大师”，因为在人工智能领域的超前探索，让他获得了很多社会荣誉。但他最喜欢的，还是“科技工作者”这个头衔。作为跨电影、光学、集成电路、计算机语言与图形学等复合型专家，图拉古不仅是“超级电影工业”发起者和开拓者，也是虚拟制作体系的引领者，更是开创AI视听大模型先河的人。目前，该技术不仅在国内领先，在国际上也没有相关理论和技术出现，图拉古也成为了中国AI感知视听领域的“大神级”人物。

　　图拉古曾说过：“一个伟大的时代，在一种良性循环中，徐徐展开;人类、AI、机器和谐相处，互帮互助的美好愿景，正在向我们阔步走来”。那么，就让我们迎接这个美好的AI时代吧。

上一条：超级码科技股份董事长顾惠波正式入选浙江省科技型企业家人才库2024-06-26

下一条：2024年全国企业家活动日郑州分会场活动成功举办2024-06-27

相关稿件: 九年洗护老兵独白：“AI 很强大，但AI 取代不了我” 2024-04-24; 部分AI系统已学会欺骗人类 2024-05-11; WPS 365全新发布，AI让协同办公更高效 2024-04-17; “以热代电”计算机可为AI运行降能耗 2023-09-14; 热潮之下，让AI和数据真正发挥作用 2023-08-16