专访悟道文澜团队如何让AI像孩子

北京中科医院正规吗 http://baidianfeng.39.net/a_zczz/150607/4635657.html

前段时间,北京智源人工智能研究院、中国人民大学和中科院计算所的研究团队在中国人民大学高瓴人工智能学院执行院长文继荣教授的带领下合作开展了大规模中文多模态预训练模型的研究,并发布了 代悟道·文澜,旨在发掘预训练模型在中文通用多模态数据上的理解能力。

现阶段的“文澜”已初具规模,具备强大的视觉-语言检索能力和一定的常识理解能力。在“文澜”多模态模型的基础上,团队还开发了应用《AI心情电台》,可以为图像搭配符合意境的歌曲。

最近,小S有幸近距离采访了文澜团队的卢志武老师和宋睿华老师,一起来听听他们对于多模态和预训练的看法吧!采访分为5个部分:

文澜模型:问题0-5多模态研究:问题6-7“布灵”心情电台:问题8-11超大规模预训练模型:问题12-14开放生态及合作:问题15-18

全文共计:字

预计阅读时间:18分钟

0.“悟道”和“文澜”等名字的起源

宋老师:在比较早的时候,清华的刘知远老师和孙茂松老师的团队就已经发布过一个版本的中文预训练模型,命名为“文源”。孙茂松老师讲“文源”的名字来自圆明园里的文源阁,起“文源”这个名字也希望能让机器去大量地阅读人类留下来的文字,学会其中的规律。因此,刘知远老师坚持要将中文预训练模型叫“文源”。而唐杰老师希望四个模型有一定的关联,像兄弟姐妹的名字。所以后来我就问刘知远老师,圆明园里还有哪些地名,以“文”字开头的,发现还真的有不少而且很美,因为蕴含了咱们古人对文字的掌握还有一些趣味在里面。

特别巧的是,我们悟道的四个模型刚好各有特色,比如说我们文澜的模型跟图像有关的,一听到“文澜”就觉得眼前会有波澜,会有浪漫的感觉,是有视觉的这种意向在里面。所以我很快就挑了这个名字给多模态项目。随后,我们也很快就找到了和其他两个预训练模型相关的名字:“文汇”就像从认知角度把知识都汇集在一起了,而“文溯”很适合蛋白质组,跟人的起源有关。

定完这四个模型的名字后,就要考虑整个大的项目名字叫什么。有人提到“悟空”,但“悟空”这个名字已经有人用了。后来也是刘知远老师说到北京智源研究院位于五道口,鉴海防老师就提议说我们不如就叫“悟道”。唐杰老师也非常赞成,既有那种从数据中体会感悟出规律的感觉,又跟“文”字系列的名字很相关。

1.多模态数据和多模态模型的优势

卢老师:我们总共有两个世界,一个是我们脑海里的世界,还有一个是脑海外的客观存在的世界。我们认知和描述两个世界的时候,一个是通过语言,一个就是我们的视觉。其实就是我们要建立和两个世界的一个联系。如果从最简单的做起,就是去从视觉去认知现实世界,也就是图像处理。对应精神世界来看,其实我们是用语言去描述精神世界。所以说多模态数据是一个自然的联系两个世界的方式。当然后面我们可以去利用音频视频,这都是很自然的事情,接下来也会有顺延合作。

宋老师:以前深度学习出现之前,大家建模问题时,都是用浅层学习把一个任务划分成很多阶段。举例来说,图像识别就是先识别出一张图像中的物体,然后再描述出来,之后才能用一些复杂的模型去推理。

其实到今天为止,我们可以看到有一个变化。就好像在教育孩子的时候一样,你有时候并不需要把那个东西肢解开了给孩子讲,而是让他看到一个目标是什么。孩子会根据大人的做法,去模仿大人。其实孩子也不知道他自己头脑里发生了什么,但是他就可以认识(认知),他就可以做(模仿,实现,完成)。这样反而要更有效率。所以当我们把机器和小孩的学习方式进行类比后,我们也希望让数据本身去说话(去发挥价值),而不是一步步去教机器。

我们可以用网上大量存在的数据,比如网上的图片很多配有文字,它们中蕴含着很高层次的推理,有很高层次的情感触发,都以文字的形式放在了图片的周围(配文)。我们就可以利用这样的数据,让我们的文澜模型(包括布灵应用)直接地去学习这样的关系,这就是多模态模型的一个非常大的优势。

卢老师:而且我认为我们的这种做法更符合我们中国的传统文化,它更强调从宏观上去做一些事情。当然无论是宏观角度还是微观角度,都各有优缺点。但语言和精神世界太复杂了,想要去完全拆解它,比如去构建知识图谱,再按照各种离散概念组合它,是很繁杂的工作。

宋老师:我也同意,虽然知识图谱可能是我们人类在传递一些信息的时候找到的一个比较有效的方式,但不一定是我们教给机器知识的最有效的方式。

2.文澜模型的弱相关假设

卢老师:弱相关假设是我们整个项目成功的一个最核心的地方。虽然OpenAI也有做类似的工作CLIP,还有微软也有做多模态预训练,但他们的论文中并没有意识到弱相关的这个问题。也就是说,他们的模型方法中无意识地使用了强相关假设,但这个假设在现实生活中的真实数据(网络数据)上往往是不成立的。总之,通过强假设的方法去学弱相关的数据,肯定有损模型效果。

宋老师:因为我们有一些产品的经历,就提了个问题,说我们开发这个东西对真正的用户有没有价值。举一个例子,比如说我们之前有一个团队做过AI识书的产品,用户把书拍个照,应用告诉你这本书的书名是什么,这样很奇怪,用户也不买账。这说明直白的演示AI技术不够有趣不够吸引人。

我们的产品经理最终做了一个无奈的选择,把识书的功能包装了一下,变成根据识别到的书的类别,预测用户的性格。结果惊奇地发现,这样做之后的流量要大得多。这件事情和刚才的例子一样,只有我们的模型和产品真正能触及到用户的精神世界,关联到他自己的命运,他的想法和情感,这些人类很柔软的部分的时候,用户才会感兴趣。换句话说,我们的产品不应该是让用户帮我们检查AI的效果,而是让用户有一种跟(精神)世界的互动。

我作为应用评测组的负责人,我主要想的问题就是,不管模型怎么做,我一定要让它做出来的东西对用户是有价值的。于是,我们当时就自己在朋友圈里偷偷下了很多图和朋友圈配文,形成了测试集。这个测试集的目的就是去看看,如果是人类朋友圈这样的图文匹配,模型有没有办法把它检索出来?

比如一句话说“我今天回去外婆家看她”,模型能不能检索出一个老房子呢?这个其实差别挺大的,因为模型(更)可能检索出一个老奶奶,就是很直白的检索。反过来说,一句朋友圈回老家的话,配上一个老房子,是很贴切的。配图中的老房子会引起大家很多对童年的想象和回忆。

所以我们当时并没有在意以前的数据集是怎么设定这个问题的,而是我们能够跳出来,更

转载请注明:http://www.aomanyupianjians.com/zycj/11555.html

网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明


冀ICP备2021022604号-9
当前时间: