谷歌Imagen首次开放测试,安卓苹果都能玩,还有AI写作助手、超长连贯

2022-11-04 12:51来源:IT之家   阅读量:7013   

扫描二维码分享

临最近几年底,谷歌终于放大招了!

在刚刚结束的AI年度盛会上,谷歌一口气发布了四项最新的AIGC技术成果。

其中最引人注目的是文本图像模型Imagen第一次测试,敲黑板安卓和苹果这次可以玩了

其他有趣的产品包括LaMDA Wordcraft,这是一个AI写作辅助工具,一个结合了Imagen Video和Phenaki优点的超长连贯视频生成模型,等等。

而且,除了官方的总结,几位来自谷歌的科学家也在推特上分享了他们在谷歌AI研究方面的新进展。

具体有哪些一起往下看

Imagen的首次公开测试

自推出以来,Imagen一直与OpenAI的DALL—E 2和Stability AI的Stable Diffusion相提并论,但不同的是,谷歌从未向公众开放该系统。

现在,谷歌终于松口,宣布将Imagen加入其AI测试厨房应用。

谷歌在今年的I/O大会上推出的应用Test Kitchen用于测试各种AI系统目前苹果和安卓用户都可以下载

起初,用户只能在上面与AI聊天机器人LaMDA 2进行交流此次更新将增加两种与Imagen互动的新方式:城市梦想家和Wobble

在《城市梦想家》中,你可以使用文本命令来建造不同主题的城市,其中Imagen模型承担了创建样本建筑和地块的角色。

在Wobble中,你可以创造一个小怪物,DIY它的材质,然后给它穿上你选择的衣服,戳它让它跳舞。

虽然与其他文本到图像模式相比,这些交互模式似乎有限,但谷歌产品管理高级总监乔希·伍德沃德解释说,这一步的意义在于获得公众对这些AI系统的反馈,并测试哪些行为会使系统崩溃。

其他AIGC产品

除了最受关注的Imagen模型,谷歌还公布了其他内容格式上的AI内容生成技术。

比如在大语言模型LaMDA基础上开发的AI写作工具LaMDA Wordcraft,可以辅助专业作家写作。

值得一提的是,下图中的评价性独白是作家刘宇昆借助Wordcraft写的一篇短篇小说。

此外,谷歌还结合了Imagen Video和Phenaki的优势,推出了一种可以生成超长连贯视频的新模式。

还有AudioLM这种音频模型,不需要文字和乐谱的训练,只需要听音频样本就可以持续生成填充音乐。

说完谷歌官方公布的这些新技术,我们再来看看谷歌科学家自己是怎么说的。

谷歌科学家眼中的新进展

除了产品层面,今年谷歌AI研究还有哪些新进展。

谷歌大脑的工程师周在推特上分享了他的观点:大模型学会了如何解释答案,检查答案,并将复杂的问题分解为子问题来解决。

这一切都始于谷歌今年1月发表的一篇论文思维链承诺引发大型语言模型中的推理。

正是在这篇论文中,Google首次提出了思维链线索的概念。

简单来说,思维链提示是一种特殊的情境学习与标准提示只给出输入输出对的例子不同,思维链提示会增加一个额外的推理过程

这一步的目的是让模型针对当前问题模仿生成自己的思维过程,最终提高生成结果的准确性。

该方法已在LaMDA—137B,GPT—3 175B和PaLM—540B三个大型语言模型中得到验证与标准提示相比,新方法明显提高了算术,常识和符号推理任务的准确性

而且伴随着模型参数的增加,思维链提示的效果也呈指数级增加。

尤其是使用谷歌的超级语言模型PaLM—540B,在包括数学问题在内的多项推理基准测试中都达到了SOTA水平,甚至超过了使用验证器进行微调的GPT—3。

很快,两个月后,该小组继续研究。

本文使用了与原文几乎相同的数据集和设置主要的改进是提出了一个简单的策略,叫做自洽

简单来说,就像人在思考的时候会想出几种不同的解决方案然后做出判断一样,自洽法会通过思维线索链从语言模型中采样出一组不同的推理路径,然后以多数投票选出答案,最后返回最自洽的答案。

这一步优化不仅意味着离模仿人类思维方式更近了一步,也显著提升了思维链方法的性能。

最新进展是,为了解决由易到难的泛化问题,团队提出了一种新颖的提示策略。

它将一个复杂的问题简化为一系列子问题,然后依次求解这些子问题,从而通过对之前求解的子问题的解答来促进给定子问题的求解。

通过这种方式,谷歌正在训练AI一步步接近人类的思维模式。

最后说了这么多,今年给你印象最深的Google AI研究是什么。

参考链接:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

返回顶部
返回顶部