几个月来以 ChatGPT 为首的聊天机器人搅得科技界满城风雨,大众忙着跟各家 AI 聊天,叫它们写信、写程式码、写诗。当语言模型大跨步前进,生成式 AI(AIGC)另一个重要分支──绘图,也完全没闲着。
去年拿下艺术比赛大奖而声名大噪的Midjourney,近期热度堪比OpenAI。Midjourney V4去年底几乎和ChatGPT同期上线,GPT-4推出後,Midjourney也於3月16日飞速推出第五版,此次更新堪称「炸裂」。
一周来各种Midjourney产生神图层出不穷,中国足球夺冠、川普插秧、教皇做DJ、异形下凡……只要敢想AI就敢画,且随便拿一张都能以假乱真。但可能AI绘图太真实,引起太多争议,且太多新用户涌入导致伺服器不堪重负,3月28日Midjourney宣布关闭免费帐号。
另一方面,大众疯狂追星同时,另一些人尝试把ChatGPT和Midjourney结合,人类构思、AI执行的「人机合作」作品逐渐显露商业化轮廓。
当图片进化到照片:AI创造的平行世界
爱因斯坦没有去实验室,而是顶着代表性鸟窝头在音乐节狂欢。
马斯克没有在21世纪制造火箭和电动车,而是穿越到苏联工厂,当了真正的「钢铁人」(工人)。
这种世界怎麽样?以上无比真实的照片,不是谁用大量时间PS,而是很多普通人动动手指头、打几个关键字,人工智慧十几秒内就自动产生的。
以假乱真世界的幕後推手就是Midjourney AI产生图片工具,在AIGC绘图领域,MidJourney是比OpenAI还神奇的存在。Midjourney没有任何巨头重金支持,为自筹资金的独立研究实验室,发起人是两次拒绝苹果收购的Leap Motion创办人David Holz,全职员工11人。这样的超小型团队,却是AI绘图领域最炙手可热的明星,甚至将OpenAI DALL‧E、Stable Diffusion、NVIDIA GauGAN2等都甩在身後。
比肩GPT的更新速度,惊叹和争议相继到来
Midjourney更新速度相较OpenAI有过之而无不及。去年3月第一版上线,4月火速更新第二版,接着7月上线Open Beta V3版本开放大众,之後以独特艺术性风格吸引众多用户,最知名就是下面人类给提示词、AI创作,与人类艺术家同台比赛後夺得冠军的油画。
▲ Midjourney产生的作品〈Théâtre d′Opéra Spatial〉。(Source:Jason M. Allen / Midjourney, CC0, via Wikimedia Commons)
Midjourney红了以後也没有停下脚步,11月又推出第四版,增加更多风格;接着3月Midjourney V5版登场。此次V5更新之所以又引发大量关注,主要是解决一个技术难题和完成跨越性突破。
技术难题指的是「手指」。
要AI画人,手是看起来简单却出奇复杂的任务。AI训练图库手往往都不是重点,人们握手、牵手、鼓掌等不同状态手都形态各异,很难形成标准模版,造成AI学习难度激增。即使对人类来说,画手也是困难点之一。手的几何形状复杂,并没有标准线条或形状,关节皱纹和褶皱、手掌阴影等细节非常多,且每人手都长不一样,独一无二,无法套用样本。
因此正确并精细画手对所有AI工具都很困难,Midjourney V5之前,业界AI绘画工具都无法画好。但Midjourney V5完美解决了问题。不仅告别六指或畸形,还能结合人物特点画出不同状态和年龄的手部细节,就连光影下的手指纹路也完美呈现。
(Source:mpost)
除了克服手指难题,Midjourney V5跨越性突破是产生照片级图片,还是摄影大师拍的。V5之前,Midjourney绘图总体以卡通或超现实风格为主,但V5版能支援真实、抽象、油画等更多风格,解析度比上一版提高2倍。此次写实风格上线,直接到很多摄影师感叹「摄影学不存在了」的地步。如「1990年代走在街上的模特儿」主题,Midjourney完美画出真假难辨的照片。
▲ Twitter网友Nick St. Pierre的时尚服装系列。(Source:左上、右上、下图)
以「发生飓风的新闻报导」为主题,无中生有还原灾难现场等。
以上范例可看出,Midjourney写实图片并不限某种固定风格,而会根据描述场景和想要风格智慧化调整色调、画素、镜头语言等。最近Midjourney很多图片,甚至达到肉眼无法辨别真伪的程度。真有媒体把川普被捕图当成真实照片,意外写成假新闻。此外,Midjourney提示词审核不严格,故有产生大量有害照片的风险。Midjourney也在加强AI产成内容的监管和审核。
如果从技术角度看,Midjourney进步度让人惊艳赞叹。但因照片太真实和新用户太多,3月28日Midjourney宣布关闭免费帐号。分析认为,此举也是为了防止更多离谱「照片」出现,扰乱现实世界和散布有害讯息。
ChatGPT+Midjourney强强联手,AI作品走向商业化应用
MidJourney仍经过Discord使用,方法还是很简单,输入文字和参数描述即可。还支援用户上传图片请AI修改。完整Midjourney「咒语」示范如下:
虽然咒语构成不复杂,但很多只有模糊想法的普通用户要让Midjourney画出自己想要的图片仍很困难,於是ChatGPT也来参一脚了。
ChatGPT能有什麽作用?可先模糊描述构想,让ChatGPT拓展成细节较多的画面描述,接着叫它提出关键词。然後将Midjourney提示语法构成告诉ChatGPT,再几次训练让ChatGPT记住如何透过关键词创建Midjourney命令语法。之後只需复制ChatGPT写好的指令,贴到Midjourney输入框即可产生图片,如果不满意还可让ChatGPT再修改提示词。
已有很多人尝试将ChatGPT和Midjourney结合结果用於工作,如电商不再需要花大钱找摄影师、美术设计师,只需将产品图片和提示词喂给AI工具,就能产生商业大片。
甚至也不用找模特儿拍照了,直接用AI产生就行。还有人用在室内设计,做网站、产生宣传图等。可预见的是,ChatGPT和Midjourney合作可能仅是AI商业化应用的开端。
随着AI技术快速发展,各种工具出现让AI应用范围等比指数扩大。设计、电商、广告、游戏、影视等各领域都涌现许多例子,娱乐性大大增强同时,全新机遇也打开了。
(本文由 品玩 授权转载;首图来源:Image by macrovector on Freepik)