首页 > 知识百科 > 正文

深度解析Sora的核心技术原创

Sora 要解决的核心问题

Sora 面临着不同类型的视觉信息的挑战,例如视频、文本、图像和声音等,并将其整合为一种共同的表征形式。这种转换是实现统一训练过程的关键,旨在将各类数据集中到一个训练框架中,以便于进行大规模的统一学习。结合简方之,OpenAI的目标是视频数据和其他多种类型的数据起来,在一个统一的训练环境中进行处理和学习。

AI视频思路1:

在视频生成领域,有一种方法是基于的单帧图像内容进行扩展,即通过分析当前帧的图像来预测帧的内容。这种方法将每一帧视为前一帧的自然延伸,从而创建出下一帧的连续视频流。

在制作视频时,为了提高稳定性,通常的步骤是先使用文本描述生成初始的图像,然后再基于这些图像生成视频。然而,这个过程存在一个核心问题:由于AI从文本生成图像本身就具有一定的随机性,这种方法在基于图像生成视频的过程中被放大,导致最终的视频结果难以预测和控制。

这种方法的随机性制约,生成的帧之间缺乏底层的语义理解和本质联系。由于每一帧图像的生成相对独立,这使得在文本到视频或图像到视频的转换过程中难以实现精确的控制和稳定性。稳定扩散体系下的动画例如,这种技术经常产生变幻莫测的效果,不适合需要稳定输出的视频生成。

尽管如此,这种方法在视频转视频的应用场景中表现出色。例如,在B站上,许多美女跳舞的视频就是通过逐帧重绘技术制作的。这种方法可以让创作者轻松改变视频的风格,从而创造出芭蕾舞的视觉效果。

AI视频思路2:

在视频生成领域,另一种最主流的方法是直接对视频本身进行训练。这种方法认识到,基于单帧推导的视频效果并不理想,因此转而关注视频内容的整体训导

这种主流方法的操作步骤是,一旦突发4个突发的视频片段,并告诉AI可能视频的内容是什么。通过大规模的训练,AI可以学会生成与片段相似风格的4个视频训练。

选择4个场景的时间长主要是因为视频数据相对来说图像非常大,而显卡的存在显着有限。在传统方法中,我们只能够将有限的视频数据投入显着存中进行训练。最初,AI视频的研究仅限于8帧或16帧的视频片段,随着技术的进步,这个时长逐渐分裂了大约4个。

在这方面,Runway和Pika这两家公司同样是该领域的代表,他们都能够完成从文本到视频和从图像到视频的生成任务。对于AI已经学习过的内容,他们在4秒内然而,由于每次训练只包含4个视频片段,AI学习到的是片段化的内容,这导致AI无法生成长视频,视频的连续性和稳定性较差。

此外,由于AI只获得了片段化的记忆,很难构建对现实世界的完整理解,其“知识量”非常有限,也没有支持出新的能力。因此,当输入AI不熟悉的内容时,生成的效果可能会非常差。

为了突破AI视频生成的难题,我们必须解决这些核心问题,包括如何提高AI对视频内容的理解能力,如何增强视频生成的连续性和稳定性,以及如何扩展AI的知识量,从而能够处理更广泛的内容。

高效地大体视频数据量的

进一步考虑视频数据的多样性,我们发现视频可以呈现多种形式,包括横屏和竖屏格式,以及从4K高清到低分辨率的64x64像素马赛克图片等多种分辨率。这些视频数据来源多样,具有不同的分辨率、宽高比和属性,给AI训练带来了挑战。

为了应对这些挑战,必须开发一个种统一的方法来对这些视频数据进行归一化处理,以便AI可以进行大规模训练。Sora的核心任务就是找到这样一种方法,它能够将不同类型的数据视觉转换为统一的表示形式,并实现集中训练。

第一步:压缩原始视频,提炼视频特征

Sora的训练过程首先将将原始视频数据转化为小维度的子空间特征,该步骤的目的是为了解决视频和图像数据在原始形式下体积过大的问题。在日常生活中,我们观看的视频和图片通常带有很多的分辨率,包含大量的像素信息。这些高分辨率的视频和图像数据对于计算机来说是非常庞大的,直接处理这样的数据会消耗大量的计算资源,包括内存和处理时间。

<通过将视频数据转化为低维度的子空间特征,Sora 可以降低数据的复杂性,同时保留视频内容的关键信息。子空间特征是一种压缩表示,它通过算法提取出数据中最显着和最重要的特征,将其映射到一个不同重要性的计算空间中。这个过程就像将高维数据压缩到一个更紧凑的形式,使得AI模型可以在更紧凑的计算环境中进行和推理这种转换不仅提高了处理效率,还使得 AI 模型能够更容易地捕获视频内容的基本结构和动态变化,从而在保持数据可用性的同时,减少了存储和处理的需求。

对于AI来说,尤其是那些设计用于处理低维度提供的模型,直接处理这些原始的、像素级的数据是非常困难的,因为它们会消耗大量的计算资源,而且训练时间会非常长长。为了解决这个问题,我们需要对原始视频进行“压缩”处理,这实际上是一个特征提取的过程。这个过程涉及将视频中的像素数据转换为一组更紧凑、更易于管理的特征信息。这些特征信息代表了视频内容的关键元素,如边缘、纹理、颜色分配和运动模式等,而不是保留每个像素的具体信息。通过这种方式,我们可以最大程度地减少数据的大小,同时保留视频内容的大小核心信息。这种压缩后的特征表示可以有效地输入到AI模型中,使得模型能够更快地进行训练和推理,同时还能保持后续的视频理解和生成能力。

把原图提炼成一个子空间特征,这样就把需要处理的数据量大幅压缩了,只提取其中的浓缩精华。之后,我们可以针对子空间的特征信息进行各种操作,并生成新的图片。正是基于这个核心原理,继承了这一轮AI绘图的大爆发。在AI绘图时,输入了一些关键词(提示),而这些关键词就会形成一批子空间特征,最终AI通过vae编码器生成一大堆类似的AI图。比如中途,一次性可以生成4张都符合你描述的特征,但又得到不同的图片,其实就是这个原理的最经典。

<体现p class="45c5-10ae-a05f-e37f img-center">

从上面的例子我们可以理解,将原始图片转化为子空间特征,再进行处理,既可以保留原始图片的关键特征信息,同时又可以可以极大压缩数据量和信息量。

Sora很可能稳定扩散体系下的图像VAE(变分自编码器)进行了升级,以支持视频数据的处理。这样,OpenAI就能够将大量的原始视频数据转化为低维度的子空间特征。

这种转化过程可以类比为提炼视频的关键要点信息,这些信息能够有效地表示视频的关键内容。通过这种方式,视频被压缩至潜空间,而这些子空间特征依次可以通过解码器还原为视频数据,构成解压一个压缩文件。

然而,需要注意的是,这种压缩过程是有损坏的。这意味着将视频压缩到子空间并再次解压,得到的视频将是原始视频的一个近似版本,而不是极高的副本。这种近似保留了视频的主要特征和内容,但可能会丢失一些细节信息。种有损压缩是许多媒体处理技术中的一个常见权衡,它允许在存储和处理效率之间找到平衡。

第二步:将视频进一步特征分割成时空图像块(时空补丁)

在视频训练领域,为了进行大规模的视频处理和学习,我们需要定义视频训练中的基本单元,这类似于大型语言模型中的“ token”。在语言模型中,token代表最小的文本单位,它可以是单词、词组或标点符号,是构成语言的基本拼图块。

将这个概念应用到视频领域,我们可以将视频想象成由一系列“补丁”(补丁)组成的拼图游戏。每个补丁是视频中的一个小块,它代表了视频帧中的一个局部区域,包含了时间上和空间上的信息。这些补丁按照时间和空间顺序组合在一起,形成了连续的视频流。

在Sora的视频处理中,补丁成为了AI视频训练的基本单元。Sora的主要任务就是预测视频序列在下一个补丁中,这类似于 GPT 模型预测下一个令牌的工作。通过学习这些补丁及其组合方式,Sora 能够理解和生成视频内容,捕捉视频中的动态变化和关键特征。

< p>使用补丁基本单元的原因与模型中使用令牌类似,包括灵活、效率、语言兼容性和提高理解力等方面:

灵活:通过将视频拆分为补丁,模型可以更灵活地处理不同类型的视频内容,无论是静态场景还是动态变化。效率:处理补丁比处理整个视频帧更高效,因为它允许模型专注于学习视频内容的关键部分。兼容性:使用补丁作为基本单元,模型能够处理不同分辨率和格式的视频,因为补丁可以根据视频的特定属性进行调整。提高理解力:通过学习大量的补丁,模型能够把握视频的精细结构和时间上的连续性,从而更好地理解和生成视频内容。

总之,补丁作为训练视频的基本单元,是Sora理解和生成视频内容的核心。通过这种方式,Sora能够在视频数据的大规模机制训练中发挥重要作用。

补丁是块

由于图像通常具有较大的尺寸,直接使用这些图像进行训练并不切实际,尤其是在使用 Transformer 架构时这是因为Transformer模型在处理序列数据时,期望输入的序列长度是固定的,而原始图像的像素尺寸往往太大,无法直接作为输入。

在Vision Transformer (ViT)这作者文章开头性的论文中,提出了一种将图像转换为适合Transformer处理的格式的方法。这个思路包括以下几个关键步骤:

图像分割:将原始图像分割成一系列固定大小的图像线性嵌入:将每个图像块展开并通过一个线性层(即全连接层)组成一个固定维度的转换。该转换步骤将每个图像块映射到一个连续的特征空间中。位置编码:由于Transformer模型本身不具备处理序列顺序的能力,因此需要将位置信息编码到图像块的向量中。这通常通过添加位置嵌入(position embeddings)来实现上,这些每个位置嵌入是与图像块相加的固定数值,表示了图像块在原始图像中的位置。分类嵌入:在处理图像块序列时,通常会在之前添加一个额外的分类嵌入(class token),这个嵌入的目的是为了在后续的模型训练中,能够区分图像的不同类别或进行其他分类任务。Transformer处理:将经过上述处理的图像块处理序列作为输入,送入Transformer模型进行处理。Transformer模型利用其自身注意力机制,能够同时处理这些处理,捕获图像块图像之间的关系,并最终理解整个的内容。

通过这种方式,Vision Transformer (ViT)成功重构Transformer架构完成图像识别任务,并取得了与传统神经网络相媲美甚至更好的性能。ViT的这种设计理念为后续的视觉变压器模型奠定了基础,并在各种视觉任务中得到了广泛的应用和发展。

在处理图像时,特别是在对于Transformer架构准备数据时,一种常见的做法是将图像分割成多个相同的图像块,这些图像块通常被称为补丁。每个图像块都是原始图像的一个局部区域,包含了的图像块部分信息。

这些图像块会被序列化,即按照一定的顺序排列成一条线性序列。在序列化的过程中,每个图像块通常会被转换成一个固定长度的表示,这个表示可以简单理解为一串数字,它代表了图像块的特征。这个过程可以通过形式神经网络(CNN)或其他特征提取方法来实现。

在形成的最终训练处理时,不仅图像块的特征会包含进去,而且还会记录每个图像块在原始图像中的位置信息。这样,当模型处理这些处理时,它不仅能够了解每个图像块的内容,能够知道这些块在图像中的相对位置,这对于理解图像的整体结构和上下文是非常重要的。

通过这种方式,复杂的图像数据被转换成Transformer架构能够处理的形式,即一系列的处理。Transformer模型利用其自身注意力机制,可以同时处理这些处理,捕捉图像块之间的关系,并最终理解整个图像的内容。这种处理方法使得AI能够有效地学习和生成具有高度复杂性和多样性的图像内容。

时空图像块是时空图像块

对于视频数据的处理,只需将图像构造成静态图像块是不够的,因为视频包含了时间维度上的连续性。为了更有效地处理视频,Sora采用了时空图像块(时空补丁)的概念,这是一种专为视频数据设计的处理技术。

时空块图像不仅包含了每个图像块的空间信息,如尺寸、颜色和纹理,还包含了这些图像块随时间的变化信息。这样,每个时空块实际上是一个立方体,它在空间维度上是一个小区域,在时间维度上则包含了连续几帧的信息。

通过将视频分割成时空图像块,Sora能够捕捉到视频中的动态变化和事件的发展。这些时空图像块被转换成一系列的处理,每个图像块不仅表示了图像块的视觉信息,还包括了它们在视频中的时间和空间位置信息。这样使得模型能够理解每个图像块的内容及其在整个视频中的相对位置和随时间的变化。

将时空图像块作为视频处理的基本单元,使得 Sora 能够利用 Transformer 架构的优势,同时处理空间和时间上的信息。这种处理方法为视频理解、生成和转换提供了困难的工具,使得人工智能能够在处理视频数据时更加高效和有效。

因此,时空图像块(时空图像块)的引入是为了同时捕捉视频中的空间信息(即图像的细节)和时间信息(即图像如何随时间变化)。技术允许人工智能模型更全面地理解和处理视频数据。

具体来说,一个时空补丁是一个立方体,它不仅包含了视频帧中的各个块空间区域,还包含了该区域在连续几帧中的变化。这样,每个时空图像块就记载了视频在特定时间间隔内的动态信息通过这种方式,AI模型能够学习到视频中的运动模式、对象行为的连续性以及场景的动态变化。

在处理视频时,将这些时空图像块作为输入,AI模型可以更深入地分析视频内容,从而在视频理解、分类、分割、生成等任务中获得更好的性能。这种方法对于处理具有复杂时间和空间关系的视频数据至关重要,因为它能够帮助模型捕捉到视频中的关键特征和事件。

以一个跳动的心形图案视频为例,使用时空补丁(时空图像块)可以帮助 Sora 捕捉到心形图案随时间跳动的动态变化。当视频被划分为时空图像块时,每个补丁不仅包含了心形图案的空间细节,比如颜色、形状和纹理,还包含了这些细节随时间变化的图像信息。例如,一个时空块可能会被捕捉到心形图案从收缩到膨胀再到收缩的过程,从而包含了整个跳动周期的一部分。

通过分析这些时空图像块,Sora 能够学习到心形图案的跳动节奏、速度和模式,以及它与背景或其他对象的交互。这样,Sora 不仅能够理解视频中的静态图像内容,还能够理解这些内容随时间的变化和动态。利用这种技术,Sora 能够生成新的视频内容,其中可以包含具有丰富的空间细节和时间动态的跳动心形图案。例如,它可以生成一个视频,展示不同大小、颜色和节奏的跳动心形图案,或者在不同的背景下以不同的跳动速度。< /p>

总之,时空图像块技术使Sora能够深入理解和生成视频中的时空动态,从而在视频处理和生成任务中实现更高的灵活性和表现力。

灵活的时空图像块

时空图像块的概念为我们提供了一种灵活的方式来处理视频数据,它允许我们根据需要捕捉不同的时间和空间动态的。这种切片可以是局部微小的细节,比如猫咪轻轻飘动的头部;也可以是流畅的场景,比如航拍长镜头中的大范围运动。Sora利用这种灵活来生成从连续长镜头到局部细节的各种视频内容。< /p>

在实现时空块图像的过程中,Sora可能确实借鉴了之前的研究和技术,如Vision Transformer(ViT)中固定尺寸图像块的思路。然而,Sora可能也采用了更先进的技术,如Navit中的“Patch n' Pack”,以处理不同的分辨率和宽高比的输入。

“Patch n' Pack”技术允许在训练过程中灵活处理不同的尺寸和比例这意味着,无论是哪种宽高比或分辨率的内容,都可以被分割成图像块,并且这些图像块可以根据不同的需求调整大小。此外,这种技术还将来自将不同的图像块图像备份到同一个序列中,从而使得不同的分辨率和宽高比的内容可以灵活组合,形成一个统一的训练数据集。

通过这种方式,Sora能够处理并生成具有不同细节层次的视频内容,同时保持和稳定的高效表现。能力使得Sora在视频理解和生成任务中表现出色,能够处理从宏观场景到个别细节的广泛内容。

< p class="143c-f54d-139d-2b2a img-center">

另外,“时空高效补丁”技术在视频处理中扮演着至关重要的角色,它提供了一种处理视频数据的方式,尤其是在训练阶段。由于视频中的帧与帧之间往往存在大量的重复信息,该技术可以识别并丢弃这些雷同的图像块,从而减少训练所需的计算资源和时间。

“时空补丁”相当于语言模型中的单词或词组(token),成为构成视频或图像的基本单元。通过将视频或图像串联成多个补丁,我们实际上就能把连续的信息转换成视觉一系列可以被模型处理的离散单元。这种方法使得模型能够处理和生成各种分辨率、持续时间和宽高比的视频,因为模型学习视频的基本构成单元——时空图像块的表示,而不是整个视频的全貌。

Sora通过一个视频压缩网络将视频数据压缩成一个低维的潜在空间表示,这个过程既减少了视频在时间上的维度(比如减少帧数),也减少了空间上的维度(比如降低分辨率)。然后,这个压缩后的视频被分割成一系列的“时空补丁”,这些补丁成为了模型学习和生成的基础。

基于补丁的表示方法有几个重要的好处:

灵活:模型可以处理不同的分辨率、不同的持续时间和不同的宽高比的视频和图像,因为原始视频或图像的规模如何,都可以通过调整补丁的数量和布局来实现。 效率:通过将视频和图像转换成补丁,模型可以更高效地学习视觉数据的复杂特征,因为每个补丁都包含了局部的信息,这些信息是生成或理解整个视频和图像的关键。可扩展性:模型语言模型可以通过学习大量文本令牌来掌握语言的复杂性,基于补丁的视觉模型也可以通过学习大量补丁来掌握视觉世界的复杂性。

通过这种高效的方式,Sora 能够以一种灵活的方式处理视频数据,从而在视频理解和生成任务中实现高性能。< /p>

Sora 训练过程

通过上面的解释,我们现在可以明白 Sora 是如何将原始视频转换为最终可训练的了这个过程可以达到以下几个步骤:

序列帧提取:首先,原始视频被转换为一系列的帧,这些帧代表了视频在时间上的连续性。特征压缩和提炼:这些序列帧图像通过OpenAI训练的模型进行压缩和提炼,转换成时空潜空间特征(时空潜在特征)。这些特征代表了视频内容的关键视觉元素,是视频的压缩表示。时空图像块分割:时空潜空间特征进一步被分割成时空图像每个时空图像块包含了视频在特定时间间隔内的空间信息及其变化。修饰转化:最后,这些时空图像块被转化为可训练的一维空修饰。这些修饰代表了视频内容的基本构成单元,可以被扩散扩散模型所处理和训练。

通过这种方式,Sora能够将原始视频转换为适合扩散扩散模型训练的格式。这种基于时空图像块的方法提高了训练的效率,还增强了模型处理不同类型视频内容的能力。最终,这种转换使得Sora能够在视频生成、编辑和其他相关任务中表现出强大的性能。

< strong>视频文本描述

OpenAI在视频理解和生成领域取得了一项重要进展,他们开发了一种新的技术,名为DALL·E 3,这项技术能够将简短的文本提示转化为对视频内容的详细描述。这类似于 GPT-4V,一个被改装的模型,它能够按照规范来描述视频中的内容,包括视频的主要内容、角色动作、环境背景描述、细节以及风格等。这些内容可以比视频原始的标题信息更详细,为视频的生成和编辑提供丰富的上下文信息。

此外,这些描述内容与前面提到的一样时空图像块技术相结合,用于视频的训练和生成。在训练阶段,视频数据被转换成时空图像块,这些时空图像块不仅包含了视频的空间信息变化,还包含了时间信息。这些时空图像块大部分被转化为适合Transformer架构处理的一维管理,用于模型的训练。在生成阶段,AI模型利用训练好的时空图像块,结合详细的文本描述,生成高质量的视频内容。

这种结合了文本描述和时空图像块的技术,不仅提高了视频处理的效率,还增强了AI模型对视频内容的理解和生成能力。OpenAI的这种技术用于视频内容的创作和编辑提供了新的可能性,有望在视频制作、媒体内容生成等领域发挥重要作用。

DiffusiTransformer 训练

视频的文本描述与时空图像转换块转换成的连接被匹配在一起,用于最终的训练扩散模型。在这个过程中,Sora对原始扩散模型的Unet结构进行了替换,采用了Transformer架构。这部分的实现细节基于Dit的架构(参考文献:https://arxiv.org/abs/2212.09748)

虽然在骨干网络架构上进行了替换,但Sora的基本原理与经典的扩散扩散模型仍然非常相似。这种方法在大体量数据训练上表现出色,数据量增大,模型的效果相当不错。

通过结合文本描述和时空图像块,Sora能够在视频生成、编辑和其他相关任务中表现出强大的性能。这种结合了文本描述和视觉信息的方法,为视频内容的创作和编辑提供了新的可能性,有利于在视频制作、媒体内容生成等领域发挥重要作用。

OpenAI利用其强大的计算资源,对Sora进行了大规模这个训练过程涉及到大量的视频数据和复杂的模型架构,需要极高的计算能力和内存资源。通过这种大规模的训练,OpenAI能够使Sora模型在视频理解和生成方面达到更多高准确性和灵活性。

Sora 的训练和优化过程是 OpenAI 团队的重要工作之一。他们通过不断的调整和优化模型架构,以及采用最新的技术和算法,使得 Sora模型在视频处理和生成方面取得了显着的进展。

OpenAI的这种训练方式,充分利用了其在计算资源和技术方面的优势,使得Sora模型在视频理解和生成领域取得了显着的进展。实现了重要的突破。这种训练方式也为其他研究团队提供了一种新的思路和方法,有望推动整个视频处理和生成领域的发展。

深度解析Sora的核心技术原创由知识百科栏目发布,感谢您对的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“深度解析Sora的核心技术原创