随着科技的发展,人工智能已成为我们生活中不可或缺的一部分。而深度学习作为人工智能的一种重要技术手段,正日益受到重视和广泛应用。与此同时,人工智能的应用也正在不断地拓展,例如像ChatGPT这样的自然语言处理技术,能够让人机交互更加智能化。在中国,有着众多的深度学习专家,他们为人工智能的发展做出了杰出的贡献。其中,周毅敏作为国内杰出的深度学习专家,一直致力于推动深度学习技术的发展和应用。在本篇报道中,我们将采访周毅敏博士,了解他对深度学习的看法,以及他在这一领域中的成就和经验。
周毅敏博士毕业于同济大学应用计算机科学与技术,研究方向包括机器学习、人工智能、深度学习以及图像处理和自然语言处理等领域。他曾在多家知名公司和大学从事深度学习和人工智能方面的工作,拥有丰富的实践经验和技术能力。周毅敏博士目前在世界一流的芯片公司担任深度学习工程师,研究着深度学习最前沿的图像技术。回顾过去十多年,周毅敏博士发表了多篇高水平的论文,在机器学习和人工智能领域取得了显著的成就。
自2010年致力于研究深度学习赋能计算机专业艺术家的审美和思维模式,周毅敏提出行业领先的图像美学评分方法。
美学是一个主观的概念,具有很强的个体差异性和文化差异性。美学评价涉及到多个因素,包括构图、色彩、纹理、对比度等,这些因素之间相互影响,同时也受到主题和情感等因素的影响。不同的人对于同一幅图像可能会有不同的美学评价。因此,如何将主观的美学感受量化和计算,建立合适的美学评价模型是一个难点和挑战。
周毅敏研究的图像美感质量评估是“计算美学”研究的重点方向。从深度卷积神经网络DCNN(Deep Convolutional Neural Network)出发,基于GoogLeNet模型周毅敏优化了图像分类识别效率和能力,提出具有深度和宽度卷积神经网络的照片美学分类器,可以更好地描述图像的美学信息,取得了更好的美感分类效果,是行业领先的图像美学评估方法。该方法在世界最流行的图像数据集DPChallinge.com实验中,正确分类精度接近90%,高达87.10%。实验结果显著优于当时已有技术,与人类的视觉感知和审美判断已经基本一致。
周毅敏使用卷积神经网络对图像进行分类,过程中采用了带有补丁的图像作为训练标签,并通过微调网络对其进行训练。经过第一卷积层滤波后,得到特征图,随后通过最大池化层对特征图进行降维处理。接下来,经过彼此连接的第二和第三卷积层进行进一步过滤,然后进入了九个初始模块,控制计算复杂性来避免算法失控。随着初始模块和更深的逐层卷积结构,该方法显著提高了识别率。此外,周毅敏还添加了两个辅助分类器以提高精度,并在在深度神经网络中的最后一层使用了双向多类别分类器softmax来进行分类。最终,softmax将图像分类为“高审美价值”或“低审美价值”,实现了使用卷积神经网络对图像进行分类的目标。
周毅敏在模型训练方面还采用了双线性插值图像缩放技术将来自数据库的输入图像缩小到256×256,并从每个图像获取中间、四角、翻转等10处图像特征信息,形成图像特征训练数据集用于训练模型,以提高模型的准确性和鲁棒性(Robustness)。
2018年前后在Penn State University息科学与技术学院人工智能研究实验室,周毅敏率先开创了一种利用知识图谱改进图像字幕的全新理论,具有行业前瞻性和较高的研究潜力。
在计算机科学人工智能领域中,System1与System2广为人知。System1可以描述为自动化系统,可以快速地完成简单的任务,并能够自主适应变化。例如,自动驾驶汽车中的一些基本控制系统可能被归类为System1。System2可以描述为更为复杂的计算机系统,需要进行更加深入的计算和思考,例如图像识别、自然语言处理等任务。将人工智能从System1推进到System2意味着更加深入的计算和思考,需要更多的资源和时间。
由于计算机对于图像的理解是基于像素级别的信息,因此如何将图像的高层次语义信息融入人工智能System2依然是一个行业难点。简单来说,从一张照片可能包含了某种情感、故事情节等高层次信息,如何从图像中自动提取这些信息是一个巨大挑战。周毅敏率先提出了使用知识图谱关联背景信息,辅助计算机联想能力进行美学评价的图像字幕方法。
知识图谱已经广泛应用于信息检索、问题解答等领域,被证明与背景知识结合的方法是有用的。周毅敏创新结合知识图谱提出增强型神经图像字幕系统(CNetNIC)采用神经图像字幕(NIC)方法,通过训练卷积神经网络(CNN)进行图像处理,得到图像编码为固定长度的向量空间表示或嵌入,并使用向量空间嵌入来指定递归神经网络(RNN)的初始状态。再训练递归神经网络(RNN)先使用对象识别模块训练生成图像特征的向量空间嵌入,以图像作为输入,生成与场景中的对象相对应的一组术语作为输出。?再使用外部知识图谱ConceptNet常识知识库,通过图谱获取常识关系边缘连接的自然语言单词和短语,用于推断与联想由对象识别模块在场景中发现的对象的单词直接或间接相关的两组术语。最后,利用术语的向量空间嵌入以及图像特征来指定基于LSTM的递归神经网络(RNN)的初始状态,以产生输入图像的字幕。
实验结果表明,周毅敏设计的CNetNIC图像字幕系统的BLEU、METEOR、ROUGEL性能指标优于当时最先进的图像字幕系统。结合知识图谱关联提取背景信息后,改进的图像字幕处理技术方法显著优于现有不使用知识图谱的技术方法。并且与知识库相结合的ConceptNet使得其生成的图像字幕更加接近于人类思维的字幕描述。
由于知识图谱信息数据量和计算机算力的局限性,计算机联想还不能拥有与人类一样或者优于人类思维范围和效率的想象力。但是随着科技的发展,这类瓶颈一定会随着软件和硬件的提升而优化。
现役公司北美总部团队半年一筹莫展,周毅敏三个月从0到1取得突破,独立推进深度学习框架搭建,挑战行业头部Apex框架技术。
Apex是全球知名半导体公司开发的,当下全球最流行的开源软件库,能够实现增加运算速度、减少显存的占用的同时不降低性能。然而,该框架技术采取了硬件绑定销售的商业模式,使用Apex必须相应地配置该半导体公司的硬件系统,形成了垄断壁垒。
为打破市场的垄断竞争优势,周毅敏所在的公司立项开发符合公司自身半导体硬件的深度学习框架。但是项目在启动初期便遇到了众多难题,首先,针对CUDA PTX(一种GPU汇编语言)中实现FMHA的操作逻辑的复杂度超越了项目团队的想象。其次,公司自身图形处理器(GPU)架构的汇编语言与CUDA PTX完全不一样。最后,处理大量内联组件和支持波前多线程矩阵乘法(MFMA)操作也存在技术实现难题。
这些问题涉及到深度学习框架的底层编程,需要开发人员对硬件架构和底层指令的理解非常深入,并且需要掌握不同的编程技术才能进行深度学习框架的开发。因此,困难重重使得公司北美团队历时半年都没能够推进项目前进半步。
既然CUDA PTX导致了那么多问题,那么就从这里入手。周毅敏创新提出抛开CUDA PTX汇编,使用公司GPU汇编纯实现FMHA。周毅敏一人集中精力研究公司GPU底层汇编逻辑,利用GPU在汇编层面的优势减少同步次数,利用内联汇编减少编译器生成的冗余代码,这两项内容都是十分耗时。周毅敏通过重新编写汇编指令来最大程度地利用硬件性能,以实现FMHA调用底层硬件的时候解除对原本CUDA PTX汇编语言的依赖,是该公司移植內联汇编的第一人。
周毅敏的解决方案大大提高了训练基准模型的速度,从而保障公司GPU产品与市场上的同类产品保持竞争力,并扩大其适用性。现在,由周毅敏与编译器团队一同继续进行该项目的研发,以实现项目最终的完成和落地,预期超越行业领先的深度学习框架。未来,该项目的成功将为公司在深度学习领域的发展奠定坚实的基础,提高公司在该领域的声誉和市场地位。随着深度学习在各个行业的应用不断扩大,该项目的成功还将为公司带来更多的商业机会和潜在客户。
周毅敏将继续努力奋斗在深度学习的最前线,推进项目的研发和落地,并不断寻求创新和优化的机会,以满足不断变化的市场需求和客户需求。同时,他们也将积极探索和研究其他新技术和新算法,以保持在行业内的领先地位,并为公司的未来发展打下更坚实的基础。
相关稿件