公司新闻
[点击量:905][来源:创选宝防静电专家(www.esdcxb.com)]
2023-02-22
过去,人们普遍认为具有创造力的工作将会是最后被机器代替的工作之一。但在2022年之后,或许会出现不同的看法。
仅仅几个月的时间,只需输入几个关键词就可以进行艺术创作的AI艺术工具陆续问世。用这种方式制作的插图、照片和画作的质量有了明显提高。尽管并非所有人都喜欢AI艺术,但一些商业艺术家已经开始试验这项技术,而图片库服务商也着手准备提供AI生成的图像。
围绕AI图像生成器打造的产品和公司开始出现,研究人员也在持续改进这项技术,《连线》也开始了对Meta开发的首批能够智能生成视频的工具的测试。这些由AI生成的视频并非完美无缺,但将它们与2022年人工智能艺术大爆发前多年的研究案例进行比较,我们可以看到一项技术从实验室实验到产品原型迅速成熟的可视化时间表。
图像生成技术建立在人工智能数十年的进步之上。大约在10年前,研究人员就已经向称为神经网络算法提供了大量带有相关标签的图像,使它们能够高精度标记以前看不见的图像。这就是为什么Apple Photos和Google Photos可以自动整理在手机上拍摄的宠物照片。
但图像制作AI工具颠覆了这种图像标记技巧。算法从网上吸收的大量图像和相关文本,再根据用户提供的文本生成新图像,核心是所谓的“生成模型”。“生成模型”根据数据集合的属性,创建适合原始集合的新数据。除了制作图像外,这种方法还可以用于编写文本、作曲或回答提问。所谓的生成式人工智能的商业潜力让科技投资者兴奋不已。
生成模型已在统计学中使用了几十年,但去年的AI制图热则源自于2014年的一项发明。那时,当时还在蒙特利尔大学就读的Ian Goodfellow提出了生成模型的新方法——生成对抗网络(GANs)。
生成对抗网络涉及两个相互对抗的神经网络(用于机器学习的算法)。一个试图生成一些东西来匹配示例集合,而另一个尝试区分真实和虚拟的示例。经过多轮竞争比较测试,虚拟检测器能够推动虚拟生成器做得更好。事实证明,这个技巧能够制作简单的手写字符图像、粗略绘制的人脸照片,以及类似真实照片的更复杂的场景。
第一批AI生成的图像很难卖出去,但还是引发了大众对于AI制图的兴趣。很快,这项技术得到了完善,并源源不断地产出了更多复杂的图像。
2016年, Facebook的研究人员和一家名为Indico的初创公司开发了GANs的改进版本,能够创建更加逼真(尽管仍然算不上完美)的图像,例如室内场景和人脸。同年,密歇根大学和德国马克斯普朗克研究所的一个团队展示了GANs如何根据特定文本提示生成相关图像。
加州大学伯克利分校的研究人员表示,GANs还可以用于修改图像,例如在马身上添加斑马条纹,或者将照片转换成莫奈风格的画作。这项研究表明,算法可以混合训练数据中遇到的不同元素或风格,这是最近显示出巨大前景的工具的一个特点。
参与该项目的加州大学伯克利分校教授Alexei Efros表示,种种迹象表明,更多的数据和计算能力可以显着提高图像生成器的输出——财力雄厚的科技公司可以很好地利用这一点。
2019年,英伟达的一个团队公布了一种基于GANs的生成逼真人脸的算法,震惊了互联网。与早期的尝试相比,它们看起来已经非常厉害了,尽管它们仍然具有明显的缺陷。
2021年1月,OpenAI发布了一个能够从文本提示生成令人印象深刻的图像的系统——DALL-E,这个名字是Salvador Dalì和迪士尼角色WALL-E的合成词。它能够生成各种风格的逼真图像,并且以有趣的方式组合概念——例如勾画出“鳄梨扶手椅”和“萝卜牵狗散步”的插图。DALL-E是通过修改称为 GPT 的生成模型构建的,该模型旨在处理在来自互联网的文本图像对上训练的文本。
Efros认为,DALL-E强大性能的关键在于OpenAI为其提供了大量训练数据。“他们使用的算法相当简单,或多或少都是以前做过的,但他们真的以一种神奇的方式扩大了规模。”
2022年6月,OpenAI发布了后续版本DALL-E 2,得益于更多的数据和更强的计算能力。它使用了一种新的更强大的生成算法,被称为扩散模型。其灵感来自于用于模拟物理现象的数学,通过挑战一种算法来学习如何去除添加到图像中的噪声。
不久之后,图像生成器就被广泛应用。2022年6月,一个受OpenAI启发的独立项目(现在被称为Craiyon)在网上引起轰动,用户们纷纷制作出越来越超现实或滑稽的图像。还有几家公司制作了与dall - e2功率相似的人工智能图像生成器。9月,该工具向所有人开放使用。
AI艺术创业公司Midjourney的CEO David Holz 在谈到过去一年时说:“这真的是一个令人难以置信的发明时代。最让人意外的是,我们意识到了这项技术还能走多远。我认为未来三年我们会看到比过去200年更多的美学探索。”
拥有自有图像生成器的初创公司Stability AI的首席执行官Emad Mostaque认为,2022年是突破性的一年。“我们的图像生成速度足够快,价格足够便宜,而且最重要的是足够好,可以让所有人在任何地方都可以使用。”
图像生成器的广泛应用不仅引起了实验的爆炸式增长,还引起了围绕该技术影响的广泛讨论。现有的问题是,输入的数据可能会给让生成的图像偏差;另外,是它们可能会被用来生成有害内容。AI艺术的版权和商标含义也不甚明确,一些艺术家担心此类工具可能会让艺术作品更难被发现。
伴随着这项技术的快速迭代,这些讨论一直持续至今。近日,谷歌的研究人员发布了一款名为Muse的图像生成工具,声称其比以前的图像生成器效率高得多,创建图像的时间是Stable Diffusion所需时间的三分之一,且结果质量更高。谷歌的新技术也可用于使用文本指令编辑图像——创意专业相关人士可能会用到。
阻碍图像生成器更广泛使用的一件事是算法对文本与图像中元素的关系并没有什么有意义的理解。麻省理工学院的两名学生Nan Liu和Shuang Li曾展示过一种方法,可以要求图像生成器在图像中包含或排除特定元素,并指定细节,例如将一个物体放在另一个物体前面。
这可以帮助人们让图像生成器更频繁地做他们要求的事情,但参与该项目的麻省理工学院教授Josh Tenenbaum表示,事实仍然是现有的人工智能工具根本无法像人类那样理解世界。“他们的能力令人惊叹,但他们通过简单描述想象世界可能是什么样子的能力往往非常有限且违反直觉。”
随着人们对AI艺术工具的热情和资金的增长,今后可能会有更高质量的AI图像出现,也许还会出现AI视频生成器。研究人员已经展示了工具原型,尽管到目前为止它们的输出都还相对简单。目前,Stable Diffusion、Midjourney、Google、Meta和Nvidia等公司都在研究这项技术。
为了了解即将发生的事情,《连线》请Meta制作了一些庆贺新年的视频,虽然很粗糙,但如果能对AI成像的近期试验进行借鉴,则将会有非常大的改进。关于AI艺术及其后续在伦理和经济等方面可能带来的问题,或许会再次引发探讨。
(来源:亿欧)