星期五 , 11月 15 2024
首页 / 人工智能 / AI / 人人都能成画家 微软新AI能将语言变为图像

人人都能成画家 微软新AI能将语言变为图像

谷歌AI创造出的略显惊悚的图像
画画或许对大多数人来说并不算一件困难的事,根据一段描述绘出一幅符合对应语句的图画,对于具有高度复杂和精密抽象概念理解能力的人类来说可以说是与生俱来的能力。然而即使是这样简单的工作,对于处于爆发式发展的人工智能技术来说始终是可望不可即的高度。

其实科技公司们之前不是没有在这一领域尝试,只不过取得的成果都“惨不忍睹”。Google在16年研究并开发了通过神经回路网(模拟人脑的技术)。建立人工智能服务器,尝试着在电脑上参考照片画了一些作品。但绘画出来的效果却显得异常惊悚。

edges2cats中令人啼笑皆非的创作
另一款去年火爆半边天的APP——edges2cats,也试图通过海量猫的图片和从这些图片自动产生的边缘线对机器做训练,意在使用户只要画个轮廓,人工智能就能根据这些线条信息画出猫来。然而最终处理后的的图片成品往往是驴头不对马嘴的“灵魂画作”,这款APP也变成了互联网上的又一“笑谈”。
但最近微软在这一领域取得了字面意义上“看得见”的突破。

edges2cats中令人啼笑皆非的创作
图上的这只生动鲜艳的小鸟,正是微软最新AI技术的展示。该技术被称为AttnGAN,它们是通过在系统中输入描述性语言而,随后自动生成符合描述的图像。例如输入“这只鸟儿是红色和白色的,嘴巴很短”,AttnGAN就能生成这些高度符合现实的,256 x 256像素的虚构小鸟照片。
微软该项目研究人员表示:四年前,还没有人相信这种技术可以实现。在过去的五年里,该小组一直在研究图像和文字的关系,并训练认知系统做各种能够胜任的工作。在这一过程中,他们首先创建了一个名为CaptionBot的AI ,让它使用文字来描述一张照片(该技术现在被微软发展成为一种辅助功能,用以帮助有视力障碍的人士使用微软产品)。随后根据此技术进行了进一步研发,创建了一个能够回答任何关于该图片问题的AI。
所以在有了AttnGAN技术后,这一机制形成了“闭环”。也就是说,微软的AI可以从单词创建图像,然后另一个AI可以以此图画做出文字描述。
“AttnGAN”这个名字来源于它的构建方式。微软的研究人员将两个AI互相对抗(命名中的“GAN”,Generative Adversarial Network即衍生性对抗网络)。两个AI都接受了语言和海量图像的训练,一方负责创造图像,另一方则评价创造出的图像。负责评价图像的AI从初始创建出的模糊图像、到中间阶段的可辨识的素描阶段、再到最终清晰的成品图像三个阶段分别进行评价和描述。这样不断进行的“对抗”也在不断改善AttnGAN系统,最终产生了现在看到的图像效果。

AttnGAN最图片中能显示出独立的多种物体
虽然分辨率较低,但成品图片大多很逼真。除了比较逼真之外,该系统在图片细节处理方面也非常精妙。这归功于“AttnGAN”的“关注”功能。在创作中,AI可以根据人类发出的细节性的描述,对每幅图像特定区域进行微调。这表现在一只鸟可以具有清晰的细节特征,如蓝色的喙、黄色的喙、长的喙或短的喙等。从分辨率到自主创作能力,再到还原具象的细节,它都比此前Google的generalized sketching AI的表现要好得多。
文本转图像生成技术可以拓展出很多实际应用,例如它可以为草图设计师或室内设计师作为语音转化图像的工具。从更长远的角度看,这项技术甚至可以生成基于电影剧本的动画电影,通过减轻大量的基本人工劳动,来改善动画电影制作人所做的工作强度,减少制作成本。
尽管目前来看这项技术还不甚完善,但在并不长的研发时间内,AttnGAN图像的质量已经比最初版本的GAN创造的最好的图像质量提高了近3倍。这项技术无异于通向类似人类智能的道路上的一个里程碑,因为它不仅可以把人从一些基本创意生成工作中解脱出来,更可以极大拓展人们的想象力。

关于 新知君

新知君
关注科技,自有新知

检查

Scaling Law终结,量化也不管用,AI大佬都在审视这篇论文

几十万人关注,一发表即被行业大 …

发表评论

邮箱地址不会被公开。 必填项已用*标注