计算机图形学基础概述
本文介绍计算机图形学的基本概念、历史发展、研究内容及前沿应用,包括真实感渲染、计算机动画、几何造型与处理、图像视频合成编辑以及与AI的融合,如计图(Jittor)平台,为图形学入门提供全面系统的知识框架。
1. 计算机图形学概述
1.1 什么是计算机图形学?
计算机图形学(Computer Graphics, CG)是利用计算机研究图形的表示、生成、处理和显示的学科。它不仅仅是关于“画图”,更是一门涉及几何、物理、数学和计算机科学的交叉学科。作为计算机科学中最为活跃和视觉效果最为直观的分支之一,计算机图形学的相关技术已经渗透到我们生活的方方面面,并在工业界得到了广泛应用。
计算机图形学与其他学科有着密切的联系。它与计算机辅助设计(Computer Aided Design, CAD)的起源紧密相关。1962年,麻省理工学院(MIT)林肯实验室的 Ivan E. Sutherland 开发了具有里程碑意义的 “Sketchpad:一个人机交互通信的图形系统”,这被广泛认为是CAD和现代交互式计算机图形学的开端。此外,图形学还与模式识别(Pattern Recognition)和计算机视觉(Computer Vision)等领域深度交叉融合,共同推动着视觉计算(Visual Computing)的进步。例如,基于图像的绘制(Image-Based Rendering, IBR)和基于视频的绘制(Video-Based Rendering, VBR)就是图形学与视觉结合的典型方向。
计算机图形学 vs. 数字图像处理
需要区分计算机图形学与数字图像处理(Digital Image Processing)。虽然两者都与视觉信息相关,但侧重点不同:
- 图像处理 主要关注对已有图像(通常以位图 Bitmap 形式存在的像素灰度或颜色信息数据)进行分析、修改和增强。输入和输出通常都是图像。
- 计算机图形学 则更侧重于从模型 生成 图像。它强调几何表示,图形是由场景的几何模型(点、线、面、体)和景物的物理属性(颜色、材质、光学特性)共同定义的。图形的表示主要分为两类:一是基于线条信息的表示(如工程图、矢量图),二是基于明暗图(Shading)信息表示(如照片级真实感图像)。
1.2 为什么研究图形学?
研究计算机图形学不仅仅是为了创造炫酷的视觉效果。它推动了人机交互的发展,改变了设计和制造的方式,革新了娱乐产业,并在科学研究、医学、教育等众多领域提供了强大的可视化工具。掌握图形学技术意味着拥有了将抽象数据和复杂模型转化为直观视觉呈现的能力,这在信息爆炸的时代尤为重要。
2. 计算机图形学的应用领域
计算机图形学技术的应用极为广泛,以下是一些主要领域:
- 电影与动画
- 三维动画电影: 从早期的皮克斯作品如《海底总动员》(Finding Nemo, 2003) 到迪士尼的《疯狂动物城》(Zootopia, 2016),计算机图形学是构建虚拟角色和世界的基石。
- 视觉特效 (VFX): 在真人电影中创造不存在的生物、宏大场景或惊人效果,如《阿凡达》(Avatar, 2009) 中广泛使用的动作捕捉和虚拟环境技术。
- 国产动画与特效: 中国在该领域也取得了显著进步,例如动画电影《哪吒之魔童降世》(Nezha, 2019) 和科幻电影《流浪地球2》(The Wandering Earth 2, 2023) 中的复杂视觉特效,都体现了图形学技术的深度应用。
- 游戏开发
- 游戏引擎: 强大的游戏引擎如 Unity (首次发布于2005年,但广泛流行始于之后版本) 和 Unreal Engine (UE4发布于2014年,后续有UE5等) 提供了先进的图形渲染、物理模拟和开发工具链,驱动着现代电子游戏的发展。
- 高品质游戏作品: 众多游戏利用图形学技术创造沉浸式体验,例如采用卡通渲染(Cel Shading)的《原神》(Genshin Impact, 2020),追求次世代视觉效果的《黑神话:悟空》(Black Myth: Wukong, 预计2024年),构建广阔开放世界的《艾尔登法环》(Elden Ring, 2022),以及经典重制的《最终幻想VII:重制版》(Final Fantasy VII Remake, 2020)。
- 实时渲染: 现代游戏的核心技术之一,利用GPU硬件加速,在保证交互帧率的前提下,实现越来越逼真的画面效果。
- 虚拟现实 (VR)、增强现实 (AR) 与混合现实 (MR)
- 头戴设备: Apple Vision Pro (2024) 和 Meta Quest 3 (2023) 等设备将数字信息与物理世界融合,提供全新的交互体验。
- 应用场景: 这些技术被应用于虚拟展览、远程协作、教育培训、医疗手术模拟、工业设计评审等多个领域。
- 交互技术: 空间计算、手势识别、眼动追踪等交互方式是 VR/AR/MR 体验的关键组成部分。
- 计算机辅助设计 (CAD)、制造 (CAM) 与工程 (CAE)
- 工业产品设计: 从汽车、飞机到消费电子产品,CAD软件用于创建精确的三维模型,进行设计迭代和验证。
- 建筑设计与可视化 (AEC): 建筑师使用图形学工具进行建筑信息模型(BIM)设计、室内外效果图渲染和虚拟漫游。
- 仿真分析: CAE软件利用模型进行结构力学分析、流体动力学(CFD)模拟、碰撞测试等,预测产品性能和物理现象。例如,进行复杂的计算机仿真。
- 科学可视化 (Scientific Visualization)
- 医学成像与分析: 将CT、MRI、超声等扫描数据重建为三维模型,辅助医生进行诊断、手术规划和教学。
- 数据可视化: 将大规模、高维度、抽象的科学或商业数据转化为直观的图形或图像,帮助人们理解数据中的模式和规律。
- 科学计算结果呈现: 可视化气象模拟、分子结构模型、天体物理模拟(如宇宙模型)等复杂科学计算的结果。
3. 计算机图形学的发展历史
计算机图形学的发展历程与计算机硬件、算法和理论的进步紧密相连。
3.1 初期阶段 (1950s-1960s)
这一时期是计算机图形学的萌芽阶段。
- 1950年: 第一台图形显示器作为美国麻省理工学院(MIT)旋风I号(Whirlwind I)计算机的附件诞生,标志着计算机输出图形的可能性。
- 1958年: 绘图仪开始发展,美国Calcomp公司将联机的数字记录仪发展成滚筒式绘图仪,GerBer公司则把数控机床技术应用于平板式绘图仪。
- 50年代末期: MIT的林肯实验室在“旋风”计算机上开发的SAGE(Semi-Automatic Ground Environment)空中防御体系,引入了阴极射线管(CRT)显示器和光笔交互,是早期大规模人机交互图形系统的典范。
- 1962年: 法国雷诺汽车公司的工程师 Pierre Bézier 提出了用于车身外形设计的 Bézier 曲线曲面理论。几乎同时期,雪铁龙公司的 Paul de Casteljau 也独立发展了类似的算法。Bézier 的工作后来被 A. R. Forrest 等人发现其深刻的数学意义并广为传播,成为计算机辅助几何设计(CAGD)的基石。为纪念其贡献,几何造型领域的最高奖被命名为 Bézier 奖(设立于2007年)。
- 1963年: 被誉为“计算机图形学之父”的 Ivan E. Sutherland 在MIT林肯实验室发表了他的博士论文《Sketchpad:一个人机交互通信的图形系统》。Sketchpad 不仅展示了交互式图形绘制、约束求解等超前概念,还正式确立了计算机图形学作为一个独立学科领域的基础。Sutherland 因此获得了1988年的图灵奖、IEEE计算机杰出成就奖和首届 Coons 奖等多项荣誉。
- 1964年: MIT 教授 Steven Anson Coons(1912-1979)提出了通过插值四条任意边界曲线来构造曲面的超限插值思想,即著名的 Coons 曲面。Coons 早在1958年就提出了“CAD”的概念,对推动计算机辅助设计的发展功不可没。为纪念他,计算机图形学领域的最高终身成就奖被命名为 Coons 奖。
Ivan E. Sutherland (1938-): 这位传奇人物不仅开创了图形学,还在很年轻时就取得了非凡成就。他获得卡内基梅隆大学(CMU)学士、加州理工学院(Caltech)硕士、麻省理工学院(MIT)博士学位。1964年,年仅26岁的他就担任了美国国防部高级研究计划署(DARPA)信息处理技术局(IPTO)的局长。之后,他先后在哈佛大学、犹他大学和加州理工学院任教,培养了一大批计算机科学领域的杰出人才,包括:
- Bob Sproull (Harvard): 合作编著第一本图形学教科书,虚拟现实技术先驱,美国工程院院士。
- Danny Cohen (Harvard): Cohen-Sutherland 线段裁剪算法发明者之一,美国工程院院士。
- Alan Kay (Utah): 面向对象编程思想(Smalltalk)和图形用户界面(GUI)的重要贡献者,图灵奖得主。
- Edwin Catmull (Utah): Z-buffer 算法发明人之一,Catmull-Clark 细分曲面发明人之一,皮克斯动画工作室(Pixar)联合创始人及前总裁,获得过奥斯卡奖、Coons 奖和图灵奖。
- Henri Gouraud (Utah): Gouraud 光照模型(Gouraud Shading)的发明人。
- Frank Crow (Utah): 图形反走样(Anti-aliasing)算法的重要贡献者。
(一个相关知识点考察:被称为图形学之父的是哪位科学家?答案是 D. MIT博士生 Ivan Sutherland。)
3.2 形成与发展 (1970s-1980s)
70年代是图形学基础算法和理论快速发展的时期。
- 光栅图形学兴起: 随着光栅扫描显示器(如电视机)成本的降低和普及,基于像素的光栅图形学成为主流。区域填充、线段和多边形的扫描转换、裁剪(Clipping)、消隐(Hidden Surface Removal)等基本图形概念及其高效算法(如 Cohen-Sutherland 裁剪、Z-buffer 消隐)相继诞生。
- 真实感渲染基础建立:
- 1970年: Bouknight 提出了第一个考虑物体间相互反射的光反射模型。
- 1971年: Henri Gouraud 提出了 Gouraud Shading,通过在多边形顶点计算光照颜色,然后在多边形内部进行线性插值,实现了平滑明暗过渡效果。
- 1975年: Bui Tuong Phong 提出了著名的 Phong 光照模型,不仅考虑了环境光、漫反射,还加入了镜面反射分量,并在多边形内部对法向量进行插值(Phong Shading),能更好地表现高光效果。Phong 模型至今仍是许多实时渲染系统的基础。
- 实体造型技术 (Solid Modeling): 如何表示和操作三维实体的研究取得进展。代表性的系统包括英国剑桥大学CAD小组开发的 Build 系统(基于边界表示 B-rep)和美国罗彻斯特大学开发的 PADL-1 系统(基于构造实体几何 CSG)。
- 图形软件标准化: 为了提高图形软件的可移植性和互操作性,标准化工作开始启动。
- 1974年: ACM SIGGRAPH (美国计算机协会计算机图形学专业组) 与ACM成立图形标准化委员会,开始制定“核心图形系统”(Core Graphics System, Core)。
- 随后,国际标准化组织(ISO)陆续发布了 CGI (Computer Graphics Interface), CGM (Computer Graphics Metafile), GKS (Graphical Kernel System), PHIGS (Programmer’s Hierarchical Interactive Graphics System) 等一系列图形系统标准。
进入80年代,追求更高真实感和效率成为重要方向。
- 真实感渲染的突破:
- 1980年: Turner Whitted 提出了考虑光线透射和递归反射的 Whitted 光照模型,并给出了光线跟踪 (Ray Tracing) 算法的经典范例。光线跟踪通过模拟光线从视点出发,经过场景反弹最终到达光源的路径来计算像素颜色,能够自然地处理阴影、反射和折射,为生成高质量离线渲染图像奠定了基础。
- 1984年: 美国康奈尔大学的 Donald Greenberg 团队和日本广岛大学的 Tomoyuki Nishita 团队分别独立地将热辐射工程中的辐射度 (Radiosity) 方法引入计算机图形学。辐射度方法基于能量守恒定律,计算场景中表面之间的漫反射光能传递,特别擅长模拟软阴影和颜色渗透(Color Bleeding)等全局光照(Global Illumination)效果。
- 1986年: James T. Kajiya 提出了渲染方程 (Rendering Equation)。这是一个描述光能在场景中稳态分布的积分方程,统一了光线传播的物理规律。理论上,所有精确的真实感渲染算法都是在尝试求解或近似求解渲染方程。其表达式通常写作: \(L_o(p, \omega_o) = L_e(p, \omega_o) + \int_{\Omega} f_r(p, \omega_i, \omega_o) L_i(p, \omega_i) (\omega_i \cdot n) d\omega_i\) 其中 $L_o$ 是出射辐射亮度,$L_e$ 是自发光,$L_i$ 是入射辐射亮度,$f_r$ 是双向反射分布函数 (BRDF),$\omega_o$ 和 $\omega_i$ 分别是出射和入射方向,$p$ 是表面点,$n$ 是法向量,$\Omega$ 是覆盖 $p$ 点的半球积分域。
- 硬件发展: 图形硬件开始加速发展,专用图形处理器(GPU)的前身开始出现,使得更复杂的图形算法能够在可接受的时间内运行。图形学的各个分支,如几何造型、动画、可视化等,都在这个时期取得了飞速发展。
3.3 现代发展 (1990s至今)
90年代以来,图形学进入了标准化、工具化、实时化和智能化的新阶段。
- 图形API标准化与普及:
- 1992年 (正式发布是1994年): OpenGL (Open Graphics Library) 发布。作为一个跨平台、跨语言的图形编程接口(API),OpenGL 极大地推动了三维图形应用的开发。
- 1995年 (Direct3D 1.0 是1996年随 DirectX 2.0 发布): Microsoft 推出了 Direct3D,作为 Windows 平台下 DirectX 多媒体 API 的一部分。Direct3D 与 OpenGL 长期竞争,共同促进了图形硬件和驱动的发展。
- 光栅化渲染流水线 成为行业标准,并在GPU中固化和可编程化,使得实时三维图形应用(尤其是游戏)得以爆发式增长。
- 引擎与工具的成熟:
- 2005年 (最初发布,2004年可能指早期版本或公司成立时间): Unity 引擎发布,以其易用性和跨平台能力,显著降低了游戏开发的门槛。
- 2014年: Epic Games 发布了 Unreal Engine 4 (UE4),提供了业界领先的图形渲染能力和完善的开发工具链,被广泛应用于高品质游戏和影视预演等领域。
- 这些引擎的出现极大地提高了开发效率,使开发者能更专注于内容创作。
- 硬件的革命性突破:
- 2018年 (发布)/2019年 (广泛应用): NVIDIA 推出了图灵(Turing)架构的 RTX 系列 GPU,首次在消费级硬件中集成了用于光线追踪加速的专用核心(RT Core)和用于AI计算的张量核心(Tensor Core)。这使得原本主要用于离线渲染的光线追踪技术开始具备实时运行的可能性,显著提升了实时图形的真实感水平。
- AI与图形学的深度融合:
- 近年来,人工智能(AI),特别是深度学习(Deep Learning),与计算机图形学的结合成为最重要的研究热点之一。
- AI被广泛应用于渲染(如降噪、超分辨率、材质建模)、动画(如运动合成、角色控制)、几何处理(如三维重建、形状分析)、内容生成(如图像合成、风格迁移)等各个方面。
- 2024年: OpenAI 的 Sora、百度的文心一格·可灵(Keling)等 AI 大模型展示了强大的文生视频 (Text-to-Video) 能力,可以根据文本描述生成高质量、长时序、具有一定物理一致性的视频内容,预示着 AI 将对视觉内容创作产生颠覆性影响。
计算机图形学技术的演进清晰地体现了从静态到动态、从简单几何到复杂物理模拟、从离线渲染到实时交互、从手工制作到智能生成的发展趋势。硬件性能的提升为复杂算法的实现提供了算力基础,而算法和理论的创新又不断推动着硬件架构的演进。这种软硬件协同发展的模式使得计算机图形学始终保持着旺盛的生命力,并持续拓展其应用的边界。
4. 计算机图形学的研究内容
计算机图形学的研究内容非常广泛,主要可以归纳为以下几个方面:
- 图形基础技术
- 图形硬件: GPU架构设计、图形加速算法与硬件实现、光栅化与光线追踪硬件单元等。
- 图形标准: 图形API(如 OpenGL, Vulkan, DirectX, Metal)、文件格式(如 OBJ, FBX, glTF)、颜色空间、数据压缩等。
- 光栅图形生成算法: 基本图元(点、线、多边形)的扫描转换、区域填充、裁剪、反走样(Anti-aliasing)、消隐(可见性判断)等。
- 图形交互技术: 人机交互界面设计、输入设备(鼠标、键盘、触摸屏、手柄、数据手套、追踪器)技术、交互算法(选择、操纵)等。
- 几何造型与处理 (Geometric Modeling and Processing)
- 曲线曲面造型: 参数曲线(如 Bézier 曲线、B 样条曲线、NURBS 曲线)和曲面(如 Bézier 曲面、B 样条曲面、NURBS 曲面)的表示、设计与计算。
- 实体造型: 表示和操作三维实体的技术,主要有构造实体几何(Constructive Solid Geometry, CSG)和边界表示(Boundary Representation, B-rep)。
- 网格处理 (Mesh Processing): 对离散的三角网格或其他多边形网格进行操作,包括网格简化(Simplification)、细分(Subdivision)、参数化(Parameterization)、分割(Segmentation)、变形(Deformation)、修复(Repair)、特征提取(Feature Extraction)等。
- 几何变形: 对已有几何模型进行形状修改,如自由变形(Free-Form Deformation, FFD)、基于骨架的变形(Skeleton-driven Deformation)等。
- 渲染技术 (Rendering)
- 真实感图形绘制 (Realistic Rendering): 模拟光照物理过程以生成照片般逼真的图像。包括局部光照模型(如 Phong)、全局光照算法(如光线跟踪、路径跟踪、辐射度、光子映射)、材质建模(BRDF)、纹理映射(Texture Mapping)、阴影生成等。
- 非真实感图形绘制 (Non-Photorealistic Rendering, NPR): 模仿艺术风格(如卡通、水彩、油画、素描)或强调特定信息(如技术插图)的绘制技术。
- 渲染管线与算法: 研究高效的渲染流程,主要包括光栅化(Rasterization)管线和光线追踪(Ray Tracing)管线及其混合方法,以及各种加速结构(如包围盒层次、BSP树、KD树、八叉树)和算法优化。
- 动画与模拟 (Animation and Simulation)
- 计算机动画: 创建运动序列的技术。包括关键帧动画(Keyframe Animation)、运动捕捉(Motion Capture)、程序动画(Procedural Animation)、变形物体的动画、关节动画与人体动画(基于骨骼)、面部动画等。
- 物理模拟 (Physics-Based Simulation): 基于物理定律模拟物体运动和变形。包括刚体动力学(Rigid Body Dynamics)、软体动力学(Soft Body Dynamics)、布料模拟(Cloth Simulation)、流体模拟(Fluid Simulation,如烟、火、水)、毛发模拟(Hair Simulation)等。
- 自然现象仿真: 模拟云、雾、雨、雪、闪电、植物生长等复杂自然景物的视觉外观和动态行为。
- 可视化与应用 (Visualization and Applications)
- 虚拟现实与增强现实: 构建沉浸式或增强的交互环境,涉及实时渲染、跟踪定位、人机交互、显示技术等。
- 科学计算可视化 (Scientific Visualization): 将科学实验或模拟产生的大量数据转化为图形图像,以便于理解和分析。
- 信息可视化 (Information Visualization): 处理非天然具有几何结构的抽象数据,用图形手段清晰有效地传递信息。
- 医学可视化: 专门应用于医学领域的可视化技术。
- 基于图像和视频的绘制 (Image/Video-Based Rendering and Editing): 利用已有的图像或视频作为素材或参考,生成新的视觉内容。包括图像合成、拼接、修复、风格迁移,视频编辑、合成、特效等。
5. 计算机图形学的研究前沿及应用实例
以下结合清华大学图形学实验室等机构的研究实例,介绍一些前沿方向和具体应用。
5.1 真实感渲染
真实感渲染的目标是生成与真实照片难以区分的图像(photo-realistic)。这需要精确模拟场景几何、材质光学属性、光照环境以及光线在场景中的复杂传播规律。
5.1.1 主要技术路径
- 光栅化 (Rasterization): 将三维场景的几何图元(通常是三角形)投影到二维屏幕像素的过程。通过深度缓冲(Z-buffer)解决遮挡问题,并对每个像素(或片元)进行着色计算。光栅化非常适合硬件加速,是目前实时渲染(如游戏)的主流方法。
- 光线追踪 (Ray Tracing): 从视点或像素出发,反向追踪光线与场景的交点,并根据交点处的材质和光照递归地追踪反射、折射等次级光线。能够自然地处理全局光照效果,但计算量巨大。随着NVIDIA RTX等硬件的出现,实时光线追踪成为可能。
- 辐射度方法 (Radiosity): 求解场景表面间的漫反射能量传输平衡方程。特别适合处理由面光源产生的软阴影和颜色渗透效果,但传统方法难以处理镜面反射且计算复杂。
5.1.2 研究热点与实例
基于预计算的全局光照实时渲染: 为了在实时应用中实现全局光照效果,通常采用预计算(Precomputation)方法。例如,通过预计算场景中各点的光照传输信息,并用基函数(如球谐函数 Spherical Harmonics, SH)进行压缩存储。研究如何设计更有效的基函数(如一种球面线性常数基函数)来同时支持高频(如清晰阴影)和低频(如柔和间接光)光照细节,并应用于动态场景的实时渲染。相关研究曾发表于 IEEE Transactions on Visualization and Computer Graphics (TVCG) 2008。
预计算渲染的加速: 预计算方法虽然可以实现实时渲染,但预计算本身和运行时查询可能仍然耗时。例如,在基于球谐函数的渲染中,计算光照需要进行球谐系数的点积或乘积。研究针对球谐基函数乘积计算的加速方案,通过数学优化和算法设计,可以显著提升渲染性能(如相对传统方法加速超过8倍)。相关研究发表于 ACM Transactions on Graphics (TOG) 2021。
表面细节绘制与体纹理: 为了在不增加模型几何复杂度的前提下表现丰富的表面细节(如凹凸、孔洞),可以使用纹理技术。体位移映射(Volume Displacement Mapping, VDM)是一种高级技术,通过体纹理(Volume Texture)存储位移信息,能在渲染时动态修改表面几何,实现比传统法线贴图或位移贴图更复杂的细节。相关技术曾在 ACM SIGGRAPH 2003 会议上展示。
复杂材质的建模与渲染: 真实世界中存在许多具有复杂光学特性的材质,如头发、毛皮、布料、皮肤等。它们的渲染需要特殊的BRDF模型甚至考虑次表面散射(Subsurface Scattering)和多重散射。研究如何高效地进行这些材质的交互式绘制和编辑,并在复杂光照环境下(如全局光照)实现逼真的外观,是持续的研究热点。相关成果发表于 SIGGRAPH ASIA 2011 等会议。
5.2 计算机动画
计算机动画利用图形学技术创造运动的视觉效果,本质上是生成一系列连续变化的图像(帧)。
5.2.1 动画类型
- 二维动画:
- 图像变形 (Morphing): 通过在源图像和目标图像上指定对应特征点(或线),计算中间过渡帧,实现平滑的形状和纹理变换。经典的例子是“猫变虎”特效。
- 形状混合 (Shape Blending/Interpolation): 在多个关键形状之间进行插值,生成平滑的形状过渡动画。
- 三维动画:
- 关键帧动画 (Keyframe Animation): 动画师在时间轴的关键时刻(关键帧)设定对象的姿态或属性,计算机通过插值算法(如线性插值、样条插值)自动生成中间帧。这是最常用、最基础的动画技术。
- 变形物体的动画: 对于非刚性物体,需要模拟其形状的变化。可以使用自由变形(FFD)技术通过控制点来扭曲物体(如模拟鱼游动时的身体弯曲),或基于物理模拟的方法。
- 过程动画 (Procedural Animation): 基于算法或规则自动生成动画,无需或只需少量手动设置。例如,模拟粒子系统(火焰、爆炸)、植物生长,或者模拟具有自主行为的虚拟生物(如“晓媛的鱼”项目展示的人工鱼,体现了多智能体系统的概念,改进了鱼群行为的真实感)。
- 关节动画与人体动画: 通过构建骨骼(Skeleton)或关节(Joint)层次结构来驱动角色模型(通常是蒙皮网格 Skinning Mesh)运动。运动数据可以来自关键帧设定、运动捕捉或物理模拟。
- 基于视频的动画 (Video-Based Animation): 从真实拍摄的视频中提取运动信息,并将其应用到虚拟角色或场景中,或者对视频本身进行编辑以生成新的动画效果。
5.2.2 研究热点与实例
- 物理模拟的效率与真实感:
- 视点相关的流体模拟: 对于大规模流体(如水、烟),在所有区域都进行高精度模拟计算代价巨大。提出视点相关的多尺度模拟方法,只在靠近视点或视觉上重要的区域进行精细模拟,而在远离视点的区域使用粗糙模拟,从而在保证视觉效果的同时大幅提高效率。相关研究发表于 TVCG 2013。
- 多流场交互模拟: 模拟不同种类的流体(如水和油)之间,或流体与固体之间的复杂相互作用(如水花飞溅、物体漂浮)。这需要处理复杂的界面追踪、相变和力学耦合问题。相关研究发表于 TOG 2014。
- 快速多流场模拟: 进一步优化多流场模拟的计算速度,使其能应用于更复杂的场景或实时交互环境。相关成果发表于 SIGGRAPH ASIA 2015。
- 多态模拟 (Multiphase/Multiphysics Simulation): 在统一的框架下模拟物质的不同状态(固态、液态、气态)及其相互转换和耦合。例如,使用光滑粒子流体动力学(Smoothed Particle Hydrodynamics, SPH)方法模拟液固耦合(如融化、凝固)。相关成果发表于 SIGGRAPH 2016 和 SIGGRAPH Asia 2020。 (注:“智能生命之人工鱼”的创新点在于利用多智能体改进鱼行动的真实度,而非纹理或曲面建模或故事情节。)
5.3 几何造型和处理
几何造型研究如何在计算机中表示、创建和编辑三维形状;几何处理则侧重于分析、修改和优化已有的几何模型。
5.3.1 主要研究方向
- 曲线曲面造型: 如前所述,Bézier、B样条和NURBS(Non-Uniform Rational B-Splines)是工业界广泛使用的自由形态曲线曲面表示方法。NURBS尤其强大,能精确表示二次曲线曲面(如圆、椭圆、球面)并具有良好的局部控制性。
- 三维重建与扫描: 从各种数据源(如激光扫描得到的点云、多张照片、深度相机数据甚至单张图像)恢复场景或物体的三维几何模型。
- 网格处理: 针对多边形网格(尤其是三角网格)进行各种操作,以满足不同应用的需求(如渲染、模拟、制造)。常见的操作包括简化、细分、参数化(将三维网格映射到二维平面,用于纹理映射等)、变形、分割(将网格划分为有意义的部分)、特征提取(检测边界、尖锐特征、对称性等)。
5.3.2 研究热点与实例
- 创新几何应用:
- 纸雕 (Popup): 研究算法自动将三维模型转化为可以打印在纸上、经过裁剪和折叠后能弹出形成立体结构的纸艺模型。相关成果发表于 TOG (SIGGRAPH 2010)。
- Sketch2Scene: 开发实时建模系统,允许用户通过绘制简单的二维草图快速构建包含多个物体的三维场景。这种技术在概念设计、游戏原型制作、影视预演等领域有重要应用。相关成果发表于 TOG (SIGGRAPH 2013)。
- 3-Sweep: 提出一种基于单张二维图像的交互式三维建模技术,用户通过在图像上绘制几条简单的“扫描”曲线,就能快速提取出具有旋转对称或挤出特征的物体的三维结构。相关成果发表于 TOG (SIGGRAPH ASIA 2013)。
- 基于学习的几何处理与重建:
- 从图像重建三维: 利用深度学习技术,特别是结合可微渲染(Differentiable Rendering),可以从单张或少量图像中更鲁棒、更准确地重建三维物体的形状、纹理甚至光照。例如,CVPR 2020 的一项最佳论文工作(Wu et al.)实现了在无监督条件下从“野外”图像学习可能对称的可变形三维物体。
5.4 图像和视频的合成与编辑
这一方向利用图形学技术处理和生成二维图像和视频内容,近年来与AI(特别是生成模型)的结合日益紧密,形成了所谓的AI生成内容(AIGC)或计算媒体(Computational Visual Media)。
5.4.1 研究热点与实例
- 基于图像/视频的绘制与编辑:
- 画中游 (Tour into the Picture): 香港科技大学等机构的研究,允许用户从单张风景照片出发,通过简单的交互指定场景大致的几何结构(如地面、墙面),然后生成在三维场景中漫游的动画效果。
- 视点变形 (View Morphing): 在给定同一场景(或物体)的两个不同视点的图像时,通过计算图像间的几何变换和光流,合成出从一个视点平滑过渡到另一个视点(甚至中间任意虚拟视点)的视频序列。
- 视频精灵 (Video Sprites): 一种利用输入视频片段(例如,一个角色在一个循环动作中的多帧图像)进行重新排序和组合,以生成满足新约束(如沿着指定路径运动、到达指定目标)的新视频的技术。这使得可以对视频中的角色或物体进行一定程度的“导演”控制。
- 基于场景理解的智能编辑:
- 交互式图像编辑: 通过对图像内容(物体、几何、光照)进行理解,实现更智能、更符合物理规律的编辑操作。例如,允许用户在图像中移动物体时,自动处理遮挡关系、生成合理阴影、甚至调整光照效果。相关成果发表于 TOG (SIGGRAPH 2012)。
- 风格化绘制: 将写实风格的图像或视频转化为具有特定艺术风格(如水墨画)的作品。例如,研究如何对水流视频进行处理,生成具有水墨流动感和笔触效果的动画。
- PatchNet: 提出一种将图像表示为“片网”(PatchNet)的图模型。图像中具有相似外观的区域(片,Patch)作为图的节点,节点间的边表示它们的空间邻接关系。这种表示有助于进行基于图像库的智能编辑,例如,用户可以选择图像中的某个区域,系统能在图像库中快速找到具有相似外观和结构的其他片来进行替换或合成。灵感可能来自作者在Cardiff傍晚散步时的观察。相关成果发表于 TOG (SIGGRAPH ASIA 2013)。
- 基于海量数据的图像合成与编辑: 利用互联网上庞大的图像和视频数据作为知识源,结合机器学习,实现更强大的图像智能处理能力。
- 经典方法: 如卡内基梅隆大学 Alxi Efros 团队的工作(SIGGRAPH 2007),利用数百万张照片来完成图像中缺失区域的补全(Scene Completion),能处理非常复杂的场景并提供多样化的结果(Efros 因此获得 2016 ACM Prize in Computing)。华盛顿大学 Steve Seitz 和 Noah Snavely 等人的工作(ICCV 2009 “Building Rome in a Day”),利用互联网上的大量游客照片,自动重建出罗马等城市的大规模三维模型。
- Sketch2Photo: 一个基于互联网图像融合的系统。用户输入简单的草图和关键词,系统在互联网上搜索相关的图像片段,并将它们智能地组合起来,生成一张符合草图结构和语义描述的新图像。该技术曾被评为2009年全球互联网数字媒体领域十大创新技术之一。相关成果发表于 TOG (SIGGRAPH 2009)。
- PoseShop: 构建一个包含大量(如三百万张)带有姿态信息的人类图像库,并开发系统允许用户通过编辑姿态或选择部件,从库中检索、组合和修改图像,生成个性化的、符合新姿态要求的人物图像。相关研究发表于 TVCG 2013。
- Write-A-Video: 提出一种基于文本驱动的视频蒙太奇(Video Montage)技术。用户通过编辑旁白文本来组织视频内容,系统会自动从视频库中检索与文本语义匹配的片段,并将它们剪辑、排序、组合成一个连贯流畅、音画同步的新视频。这大大降低了视频编辑的门槛。相关成果发表于 SIGGRAPH Asia 2019。
- 基于深度学习的图形学应用: 深度学习模型在图形生成和处理方面展现出强大能力。
- TryOnGAN: 一个用于虚拟试衣的生成对抗网络(GAN)。输入目标人物图像和目标服装图像,模型能够生成该人物穿上这件衣服的逼真效果图,同时较好地处理身体姿态、服装变形和遮挡。相关研究(Lewis et al.)发表于 TOG 2021。
- ChoreoMaster: 一个音乐驱动的舞蹈生成系统。输入一段音乐,模型能够自动生成与之节奏、风格相匹配的三维角色舞蹈动画序列。相关研究(Chen et al.)发表于 TOG 2021。
- AgileGAN: 用于肖像画风格转换,能将输入的照片快速转换为具有特定艺术家风格(如梵高、莫奈)的肖像画,同时保持人物身份特征。
- PCT (Point Cloud Transformer): 将自然语言处理领域获得巨大成功的 Transformer 架构应用于三维点云数据处理。通过设计适合点云数据的自注意力机制,PCT 在点云分类、分割等任务上取得了优异性能。实验结果(如注意力图可视化)显示其能有效捕捉点云的全局和局部结构。
- SubdivNet: 受到图像卷积网络(CNN)的启发,将在规则像素网格上定义的卷积操作推广到不规则的三角网格(Mesh)上。利用网格细分操作来定义不同分辨率下的邻域关系和卷积/池化操作。SubdivNet 在多个公开的网格分类(如 Manifold40, SHREC11)和语义分割(如人体模型分割)基准数据集上取得了当时最优(state-of-the-art)的性能,例如,在Manifold40上首次达到100%准确率,人体分割准确率也显著优于之前的 MeshCNN 等方法。
- CharacterGen: 一个从单张人物照片高效生成带有纹理、骨骼绑定的三维角色模型的技术。它利用多视角姿态规范化等方法,解决了单视图重建的歧义性问题,使得快速创建可用于动画或游戏的角色成为可能。相关研究(Peng et al.)发表于 TOG 2024。
6. 学术组织与研究社区
计算机图形学拥有活跃的国际化学术社区。
6.1 ACM SIGGRAPH
ACM SIGGRAPH (Association for Computing Machinery’s Special Interest Group on Computer Graphics and Interactive Techniques) 是该领域最重要、最具影响力的专业组织。它由布朗大学教授 Andries van Dam (Andy) 和IBM公司的 Sam Matsa 在60年代中期发起。
SIGGRAPH 年会自1974年在科罗拉多大学博尔德分校召开第一届以来,已成为全球计算机图形学研究者、开发者、艺术家和教育家最重要的年度盛会。会议内容不仅包括顶级学术论文的发表(通常发表在 ACM Transactions on Graphics 期刊),还有技术演示、艺术展览、动画节、课程、商业展览、招聘会等丰富多彩的活动。其参会人数规模宏大,历史上最高曾达到近五万人(如2001年的48700人),虽然近年来因各种因素有所波动(如2019年约18700人),但其作为领域旗舰会议的地位依然稳固。
为了更好地服务亚洲及太平洋地区的社区,ACM SIGGRAPH 于2008年在新加坡创办了 SIGGRAPH ASIA 年会,现已成为亚洲地区图形学领域的顶级会议。
6.2 主要会议与期刊
除了 SIGGRAPH 和 SIGGRAPH ASIA,计算机图形学领域还有许多其他重要的国际会议和期刊:
- 主要会议:
- Eurographics (EG): 欧洲图形学协会的年会,欧洲最重要的图形学会议。
- Pacific Graphics (PG): 环太平洋图形学会议。
- Computer Graphics International (CGI)。
- Graphics Interface (GI): 加拿大的图形学会议。
- Computational Visual Media (CVM): 专注于计算视觉媒体的会议。
- 几何处理相关会议: Symposium on Geometry Processing (SGP), Solid and Physical Modeling (SPM), Geometric Modeling and Processing (GMP), Shape Modeling International (SMI) (现合并入SPM)。
- 主要期刊:
- ACM Transactions on Graphics (TOG): 图形学领域的绝对顶级期刊,SIGGRAPH 和 SIGGRAPH ASIA 的论文通常发表于此。
- IEEE Transactions on Visualization and Computer Graphics (TVCG): 可视化和图形学领域的顶级期刊,IEEE VIS, VR 等会议的论文也常发表于此。
- Computer Graphics Forum (CGF): Eurographics 会议论文以及独立投稿的期刊,欧洲图形学协会的官方期刊。
- IEEE Computer Graphics and Applications (CG&A): 侧重图形学技术应用和实践的期刊。
- Computers & Graphics (C&G)。
- The Visual Computer (TVC): Computer Graphics Society (CGS) 的官方期刊。
- Computational Visual Media (CVM): 近年来发展迅速的开源期刊,关注图形学与视觉的交叉领域,影响因子较高(提及的17.3可能是特定年份或计算方式下的结果,需注意期刊影响因子会变化)。
7. 图形学与人工智能的融合:计图 (Jittor) 平台
随着深度学习在图形学研究中的广泛应用,高效易用的深度学习平台成为重要的支撑工具。这些平台负责机器学习模型的定义、训练和推理,管理大规模的数据和模型,并调度底层的计算资源(CPU, GPU, TPU 等)。
清华大学图形学实验室于2020年3月20日开源了自主研发的深度学习框架——计图 (Jittor)。Jittor 专为图形学等需要复杂计算和高性能的领域设计,具有以下创新特点:
元算子 (Meta-Operator) 与融合: Jittor 提出“元算子”的概念。不同于其他框架需要维护成百上千种算子(Operator),Jittor 只需三类共18个基础的元算子。通过元算子融合(类似编译优化中的算子融合),可以动态生成各种复杂的深度学习算子。这种设计使得框架本身更易于优化、扩展和维护,并且更容易适配不同的硬件后端。
统一计算图 (Unified Computation Graph): 深度学习框架通常使用计算图来表示模型的计算流程。现有框架主要分为两类:静态图(如 TensorFlow 早期版本)和动态图(如 PyTorch)。静态图在执行前定义好整个计算图,便于全局优化,效率高但灵活性差;动态图在运行时逐个执行算子,灵活性高但优化困难,效率相对较低。Jittor 提出了“统一计算图”的思想,采用动态切分、静态子图融合的策略。它在运行时将动态生成的计算图切分成多个静态子图,然后对这些子图进行优化(如元算子融合、内存优化),并支持跨迭代(across iterations)的优化。这种方式兼顾了动态图的灵活性和静态图的高效性。
性能提升: Jittor 在多个面向可视媒体处理的任务上展示了显著的性能优势。例如,在GAN图像生成任务上性能提升超过一倍;在图像分割任务上相比同类框架性能提升7%-44%;在单张图片三维重建任务上性能提升4.9到21.7倍;在三维点云分析任务上性能提升22%-172%等。Jittor 还构建了丰富的模型库资源。相关技术细节发表于 Science China Information Sciences 2020 (Hu et al.)。
硬件快速适配与国产AI生态: Jittor 的元算子和统一计算图设计使其能够更容易地生成适配不同硬件(包括CPU、NVIDIA GPU (CUDA)、AMD GPU (ROCm)、以及国产 GPGPU/AI 计算芯片如华为昇腾 (Ascend/ACL)、寒武纪 (MLU/BANG C) 等)的高性能代码。Jittor 全面支持国产操作系统(如麒麟、统信UOS)和处理器,积极融入国产AI生态建设,并支持了多个AI算法竞赛。
8. 结语与展望
计算机图形学在过去的几十年里取得了令人瞩目的成就,从最初简单的线条图到如今令人惊叹的照片级真实感实时渲染和智能内容生成,它深刻地改变了我们与数字世界互动的方式,并极大地丰富了我们的视觉体验。
展望未来,计算机图形学将继续在以下几个方向发展:
- 更高的真实感与效率: 随着硬件算力的持续增长(尤其是光线追踪和AI加速单元的普及)以及算法的不断创新,实时渲染的真实感将达到新的高度,大规模、高复杂度场景的模拟和渲染将变得更加可行。
- 与人工智能的深度融合: AI将在图形学的各个层面扮演更重要的角色,从底层渲染优化到上层内容创作,AI驱动的图形学(AI for Graphics)和图形学驱动的AI(Graphics for AI,如利用合成数据训练AI模型)将是重要的研究方向。AIGC技术有望实现内容创作的民主化。
- 沉浸式体验与虚拟世界: VR/AR/MR 技术的发展将推动对更逼真、更具交互性的虚拟世界(Metaverse)的需求,这对图形学的实时渲染、物理模拟、人机交互等方面提出了更高的要求。
- 跨学科应用拓展: 图形学将在科学发现、医疗健康、智能制造、文化遗产保护、教育培训等更多领域发挥关键作用,成为连接数字世界与物理世界的重要桥梁。
计算机图形学是一门融合了科学、技术与艺术的迷人学科。它既需要严谨的数学和物理知识、扎实的编程能力,也需要对视觉美学和用户体验的深刻理解。对于有志于探索这个领域的学习者和研究者来说,前方充满了无限的机遇和挑战。