
酒店
文|李睿、真梓
上传商品图片,选择场景、图片尺寸、数量,在不到一分钟的时间内完成 3D 数码、小家电、日用品等类型商品图。这是灵动 AI 推出的 AIGC 产品 " 灵动 AI 商品图 " 的主打场景。
(资料图片)
过去,传统商品场景图的制作常采用 3D 渲染或影棚拍摄方式。制作一套 20 张的商品场景图,需要一个多工种设计团队至少耗费 3 天时间,花费成本超 2 万元。对比之下,使用 " 灵动 AI 商品图 " 这类生成工具,单人即可完成商品图的制作,单次生成消耗的算力成本不到 1 元。
灵动 AI 创始人雷海波,之前是中国头部视觉设计社区 " 视觉中国 " 创始人。2014 年,雷海波创立了 D2C 创新产品孵化及智能设计平台「太火鸟」。但 2023 年生成式 AI 的来临,让雷海波改变了自己的创业旅程。
Diffusion Model 来袭,GAN 不过就加入
AI 生成图片,GAN 方案是早前主流。2018 年到 2020 年间,雷海波也将 GAN 引入其公司「太火鸟」旗下的 D2C 创新产品孵化平台,帮用户一键生成硬件产品的草图、效果图、仿真 3D 图。
但在 2022 年年中,伴随 DALL-E2、Midjourney 等基于 Diffusion Model 的大模型崛起,图像生成的效果前所未有的逼真。算法生成的图像在质量、创造性方面也明显优于 GAN,震惊了整个创意产业。
拥有 20 多年设计经验的雷海波也是其中一员。
在初尝 Diffusion Model 的效果后,雷海波发现,这一算法的效果在很多场景下几乎不逊于专业设计师。为进一步验证这一发现,他在一个月内用 Midjourney 生成了 1.2 万张图,加入了 Midjourney 在 Discord 上的 " 一万俱乐部 "。
最后,这位专业人士不得不承认,Diffusion 已经完全超越人类的表现。
" 第一是效率,第二是生成的效果。它把初级设计师和有 10 年功力的资深设计师的能力拉平。" 雷海波觉得,一个没有任何设计能力的非专业人士,只要会写提示词,用 Diffusion 生成的效果已经超过资深设计师的水平。" 这在设计界是公认的。" 他补充。
但同时,认清现实意味着,太火鸟基于 GAN 的技术路线几乎要推倒重来。已在 " 一万张俱乐部 " 中验证过答案的雷海波,决定 " 打不过就加入 ",灵动 AI 也就此成立。
雷海波表示,灵动 AI 以生成式 AI 为核心,打造从视觉设计行业大模型到创新应用的设计平台,目标是重塑专业的 " 营销 + 设计 " 工作流程。
在他看来,灵动 AI 相比很多 AI 初创公司拥有自己的先天优势," 太火鸟过去的所有技术、数据积累和资产,包括三十多项 GAN 时代的算法专利以及海量设计资源,都可以直接移植到新公司中进行利用。" 雷海波介绍,通过汲取太火鸟的经验和资源,灵动 AI 在两个月内就研发出生成内容技术和产品矩阵。
" 灵动 AI 商品图 " 背后:Lora 模型 + 专业模型
AIGC 产品 " 灵动 AI 商品图 " 是灵动 AI 的产品代表。雷海波表示,这是业内首个工业级 AI 商品图生成工具,该产品正在与京东智能新品孵化平台合作,为商家提供 AIGC" 营销 + 设计 " 服务。
在演示中,用户可以通过 " 灵动 AI 商品图 ",进行简单的选择对固定商品输出多种场景的商品场景组图,复杂的图像处理和场景生成工作均由系统承担。
在技术层面,雷海波介绍," 灵动 AI 商品图 " 集成了多个特定的风格场景,并依托 Diffusion Model 训练出 LORA 模型和多个达到 1 亿级参数规模的专用 AI 模型。未来,公司还计划打造灵动 AI 视觉设计大模型。
其中,专用 AI 模型还承担了文生图的 " 控制 " 功能。
众所周知,将 AIGC 应用进工作流,需要解决内容的一致性、可控性问题。针对这一行业难题,灵动 AI 研发了 C-VAE 商品主体生成控制和 C-BG 背景生成控制专用模型——它们和动态视觉专用模型、内容理解以及美学评估专用模型一起组成了专业模型序列。
此外,智能审美评价系统也是雷海波眼中的 " 技术壁垒 "。雷海波告诉 36 氪:" 这个智能审美评价系统是灵动 AI 自研的一套美学评估模型,由后台自行完成,用户感受不到它。" 他进一步介绍,美学评估模型,综合考虑了许多视觉设计的专业规范,从整体审美、商品材质与场景的适配度、整体色彩的协调性、光影明暗、商品与场景的风格契合度、构图的合理性等上百个评价维度对生成图像进行打分。这一模型的效果是帮助用户筛选、呈现效果最优的图片。
模型架构之外,雷海波还认为," 没有任何团队拥有我们这样量级的设计类数据集 "。目前灵动 AI 已经拥有 1000 万设计数据集和 1 亿 + 工业产品设计数据集。
相比 Midjourney、Stable Diffussion 等通用视觉大模型," 灵动 AI 商品图 " 希望在简单易用性与专业生成效果之间取得平衡,以模块化的场景图模版代替传统视觉大模型流行的文生图。" 纯粹的文生图对普通用户来说门槛较高,因为描述出一个专业的商品图场景需要专业的提示词表达,而大多数普通商家并不具备相关能力。另外这种方式不利于批量的商品图生成。" 雷海波解释。
在演示中我们还看到,即便 GAN 的高光已经过去,但在 " 灵动 AI 商品图 " 主页所演示的效果图中,雷海波还是隐藏了一些智能硬件时代留下的痕迹。例如,他将 Nest 智能温控器、Misfit 可穿戴等当年著名的产品 " 藏 " 进生成模型所生成的商品场景组图样例中,以此来致敬与太火鸟同期的智能硬件时代。
效果示例从静到动,完善视觉大模型场景
视觉模型的应用场景,不止于图像生成,还有视频生成。
在视觉大模型范畴,图片是目前形态最多的产品,视频是 " 皇冠上的那颗明珠 "。在这二者之间,动态图形(Motion Graphic )是目前的兵家必争之地,Motion Graphic 也是一个很热门的设计专业。
" 我们第二个产品方向是动态生成模型,主要是面向营销物料的元素级动态生成。" 雷海波向 36 氪透露,灵动 AI 正从静态生成向动态生成领域拓展,希望打造 AI 原生「动态视觉」生成式设计平台。
此前灵动 AI 与孟京辉导演发起的斯芬克斯全球首届元宇宙戏剧节合作,协助老狼、黄磊等艺术家完成了 AIGC 动态宣传海报创作。同时也和小米、京东、安踏等客户进行了 AIGC 共创合作。
产品之外,雷海波还介绍,灵动 AI 的核心团队来自视觉中国、THN、百度和京东等头部科技企业。他表示,这支团队的成员具备参与 THN 工业设计平台和智能设计引擎、百度文心一格视觉大模型以及京东商城文生图视觉大模型的开发经验。下一步,灵动 AI 计划在年底推出 10 亿参数专注工业产品设计领域的垂类大模型,在此基础上开发面向具体行业的定制化应用,为广告、品牌、媒体等创意产业提供更加专业化、精细化的 AIGC 方案。
关键词:
攻略
装备
商城