Unity负责任的AI和增强的模型培训
Unity Muse可以帮助您探索,构思和迭代强大的AI功能。其中两个功能是Texture和Sprite,它们将自然语言和视觉输入转化为可用的资产。
通过Muse将AI引入Unity编辑器,您可以通过快速将想法转化为有形的东西来更轻松地实现您的愿景。您还可以调整和迭代文本提示,模式,颜色和草图,可以转换为真实的和项目就绪的输出。
为了提供安全、负责任和尊重其他创作者版权的有用输出,我们挑战自己,在为Muse的精灵和纹理生成提供动力的AI模型的训练技术上进行创新。
在这篇博文中,我们将分享Muse如何生成结果,解析我们的模型训练方法,并介绍我们的两个新的基础模型。
训练人工智能模型
当我们首次亮相Muse的纹理和精灵功能时,我们也开创了两个定制的扩散模型,每个模型都是Unity拥有或许可的专有数据从头开始训练。
扩展我们的自有内容库
我们用来增强数据集的规模和多样性的一个关键技术是数据增强,它允许我们从原始的unity拥有的数据样本中产生许多变化。这极大地丰富了我们的训练集,增强了模型从有限样本进行泛化的能力。我们还利用几何变换、色彩空间调整、噪声注入和生成模型(如稳定扩散)的样本变化等技术来综合扩展我们的数据集。
最近,由于该模型最初是根据从互联网上抓取的数据进行训练的,所以Stable Diffusion一直是伦理问题的主题。我们限制了对预训练模型的依赖,因为我们通过从头开始训练潜在扩散模型架构来构建Muse的纹理和精灵功能,基于Unity拥有并负责管理的原始数据集。通过最小限度地使用稳定扩散模型作为我们数据增强技术的一部分,我们能够安全地利用该模型将unity拥有的原始资产库扩展为强大且多样化的输出库,这些库是独特的,原创的,并且不包含任何受版权保护的艺术风格。我们还在此基础上应用了额外的缓解措施,我们将在下面描述。我们用于潜在扩散模型的训练数据集支持Muse的纹理和Sprite功能,不包括从互联网上抓取的任何数据。
下面是通过上述增强技术扩展内容的一些示例。
原始数据样本(左上)和通过混合增强技术获得的合成变化,基于扰动(颜色空间调整,从上到下)和基于生成(从左到右)。
原始数据样本(左上)和通过混合增强技术获得的合成变化,基于扰动(颜色空间调整,从上到下)和基于生成(从左到右)。
原始数据的进一步样本(左列)及其产生的合成变量。
在扩充了现有数据之后,我们仍然需要填补一系列主题的空白。为了做到这一点,我们在自己的内容上训练稳定扩散,直到它的行为发生显著变化。使用这些衍生模型,我们使用预先过滤的主题列表创建了全新的合成数据。主题列表通过人工审查和使用大型语言模型(LLM)进行额外的自动过滤,以确保我们不会试图创建任何违反我们指导原则的合成图像,并违背我们试图实现的目标:一个完全没有可识别的艺术风格、受版权保护的材料和潜在有害内容的数据集。
结果是两个大的数据集,包括增强和完全合成的图像,我们有很高的信心不会包含不需要的概念。然而,尽管我们很有信心,我们仍然想添加更多的过滤来确保我们模型的安全。
额外的数据过滤安全,有用的输出
由于我们的主要优先事项是安全、隐私,并确保我们的工具不会对您产生负面影响,因此我们开发了四个独立的分类器模型,负责额外的数据集过滤。这些模型有助于确保数据集中包含的所有内容都符合我们根据人工智能指导原则设定的标准,以及对图像质量的额外检查。
评审模型共同负责确定合成图像:
- 没有任何可识别的人类特征
- 没有包含任何非通用的艺术风格
- 没有包含任何IP字符或标识
- 是否达到了可接受的质量水平
如果图像没有通过四种评审模型中任何一种所需的高置信度阈值,则从我们的数据集中丢弃它。我们决定在谨慎的一面犯错,并对我们的模型进行加权,以便只有具有最高置信度的图像才能通过过滤器并进入最终的数据集。
介绍我们的模型:Photo-Real-Unity-Texture-1和Photo-Real-Unity-Sprite-1
在Unite,我们宣布了Muse的Texture和Sprite功能的早期访问权限。支持这些工具的模型的第一次迭代在内部被称为Photo-Real-Unity-Texture-1和Photo-Real-Unity-Sprite-1。这些模型的设计只对风格化有一个基本的了解,主要集中在照片写实主义上。
此外,如果你想引导模型匹配现有的风格在你的项目中,你可以教我们的模型如何创建一个特定的艺术风格的内容,通过提供我们的风格培训系统一些你自己的参考资产。这将创建一个小的辅助模型,该模型与主模型协同工作以指导其输出。这个小的二级模型是您或您的组织作为其培训师的私有的,我们永远不会使用此内容来培训我们的主要模型。
因为我们的模型专注于真实感,我们不需要训练我们的主要模型无数不同的风格。这种架构可以更容易地训练主要模型,同时保持我们对负责任的人工智能的承诺,同时给你一个深层次的艺术控制。
今天的这些模型只是一个开始。我们希望Muse继续变得更加智能,并提供更好的输出,我们将通过我们的模型改进路线图引导模型沿着这条道路前进。
Photo-Real-Unity-Texture-1路线图
我们第一版photoreal – unity – texture -1的输出样本。从左到右:金属泥、蓝色水晶玻璃岩石、红色织物、熊毛
目前,我们的纹理模型在各个方面都很有能力。它知道大量的概念,您可以自由地混合完全不相关的概念并获得漂亮的结果,例如“金属泥”或“蓝色水晶玻璃岩石”,如上所示。
虽然模型在目前的状态下非常有能力,但在学习了它如何响应不同的提示和输入方法之后,我们发现用单个单词的提示来实现高级材料概念可能很困难。还有其他方法可以帮助引导模型达到您的目标,但我们希望继续给您更多的控制,无论是在基本提示的准确性方面,还是通过添加指导模型的新方法。
在未来,我们计划增加一个颜色选择器,额外的预制引导模式,一个改进的系统来创建你自己的引导模式,和其他新的视觉输入方法,我们目前正在试验。
展望未来,我们对Photo-Real-Unity-Texture-1的主要重点是识别任何薄弱的材料概念,并通过频繁的模型再培训继续提高整体质量和能力。您通过工具内评级系统的反馈对于帮助我们通过识别模型功能中的弱点来构建最好的工具至关重要。结合我们频繁的培训计划,我们正在迅速改进模型,使其更容易使用,更了解物质世界。
Photo-Real-Unity-Sprite-1路线图
来自第一版photoreal – unity – sprite -1的输出样本。从左到右依次是:一棵绿树、一块巨石、一把剑、一个木桶
与Photo-Real-Unity-Texture-1类似,我们的基础精灵模型总体上非常强大,并且知道许多概念。由于该工具还没有内置动画功能,我们选择将最初的努力集中在最大限度地提高最常用的静态精灵概念的质量上。您可以在上图中看到基本模型的原始输出。在正常使用中,这些将由用户训练的模型来指导,以匹配特定的艺术风格。
虽然静态物体已经相当可靠,但我们仍在努力提高动物和人类的解剖精度。在这些类型的对象上有可能得到良好的结果,但你可能会遇到四肢多余或缺失或面部扭曲的情况。这是我们对负责任的人工智能的承诺和对数据使用的严格限制的副作用。我们认真对待隐私和安全,即使在我们最初的早期访问版本中牺牲了一些主题的质量。
这是我们对负责任的人工智能的承诺和对数据使用的严格限制的副作用。我们认真对待隐私和安全,即使在我们最初的早期访问版本中牺牲了一些主题的质量。
你也可能遇到生成的精灵完全是空白的情况。这是由我们的视觉内容审核过滤器造成的。在最初发行时,当涉及到photoreal – unity – sprite -1的输出过滤时,我们选择过于谨慎,因此,某些美术风格可能会触发过滤器的误报。我们打算随着时间的推移放宽限制,因为我们会继续收到您的反馈并改进我们的内容过滤器。
随着我们得到反馈并继续负责任地获取更多数据,我们期望所有主题的质量全面迅速提高。我们打算把Photo-Real-Unity-Sprite-1通过类似严格的训练计划Photo-Real-Unity-Texture-1。
Unity负责任的AI增强开发路径
Unity Muse是以最负责任和最尊重的方式为我们的社区带来更大的创造性控制的第一步。我们以用户第一为中心构建了这个产品,我们的目标是根据您的反馈继续进行更改和改进。
我们认识到生成式人工智能对创意产业的潜在影响,我们对此非常重视。我们花了很多时间来开发这些工具,以确保我们不是在取代创造者,而是在提高你的能力。我们相信,有了更多的创作者,世界会变得更美好,有了Unity Muse和支持它的模型,我们将继续支持这一使命。