今天我们分享的是和 NLP 科学家李磊教授的对话,Enjoy。
李磊教授,加州大学圣巴巴拉分校助理教授。
绿洲:最近 LLM 的发展以天为单位在迭代,您对此怎么看?
李磊教授:GPT-4 发布虽然很火,但也完全是顺理成章的。之前 OpenAI 做的 CLIP 模型就可以输入图形和文字,并且在文字图形结合的情况下,给予打分。把 CLIP 作为编码器的模型和解码器接上之后,自然就是 GPT-4了。
GPT-4 生成端还是完全的文字,如果它能完全做到输入端可以是文字,可以是图片,可以是视频,生成端也可以是文字,可以是图片,可以是视频,那才会比较惊人。但我相信这种模型也很快就能做出来了。
再说到 Google 的 Bard,百度文心一言发布,其实都是可以预见的。特别是 Google,之前就已经发了好几篇论文,并且这些论文里出现了他们和 OpenAI 的 GPT-3 做了对比效果。从一些基准数据上来说,两者是差不多的,并不是说 OpenAI 就绝对领先,或者 Google 就绝对领先,这一点没有体现。从之前的一些论文所能得到的结论是:模型越大,数据越大,能力越强。有些人把它称之为 Scaling Law (标度定律),它是不是一个定律?这个至少现在从很多问题上看来是成立的。
Bard 和文心一言我还没亲自去试,但我了解下来别人实验的结果和预期差不多——生成能力非常强大。如果没有 ChatGPT 在先,百度就会让世人惊叹了。当然它的特长是可以在开放性的生成上很出色,也就是说你写一些小故事,如果本身没有对错之分,与事实无关,模型生成的内容就很好。当然它有局限,和 OpenAI 现在 ChatGPT 这些模型,包括微软的模型,Google 的模型都是一样的,就是在有关事实类的问题上面,他们还是会有胡说八道的生成,这个当然很难避免,但凡做研究的都深有体会。
所有这些大模型现在共同的问题是:比较复杂的问题,人类都需要好几个步骤,反复思考才能想出答案,对模型来说就是很困难了,GPT-4 还不能解决复杂推理问题。
绿洲:在使用 GPT-4 或者其他模型的时候,有没有遇到过有趣的案例?
李磊教授:我们做研究的,案例都要去看,但是用案例来说明某个模型的能力需要全面评估,如何评估模型能力本身是一个科学,需要有科学的研究方法。这是从研究的角度出发,如果只是一般用户体验,就另当别论了。
我们最近在做这方面的研究。我和我们学校的 William Wang 老师一起合作,还有我们共同指导的一个博士研究生许文达,所作的工作就是如何科学地评判文本生成模型,包括机器翻译,包括数据到文字的生成;还有从给图片写描述这样一些生成任务上,如何自动地去判断生成模型的效果。核心的想法是希望能训练一些模型,不依赖于人的评估,这些模型可以自动给生成式模型所生成的文字打分。
绿洲:GPT-4 的技术报告中哪些科研对您的研究会有启发呢?
李磊教授:它是一个实验报告,我觉得它在各个任务上的性能确实相对 ChatGPT 来说又有比较大的提升,尤其是多语言上的提升。还有其中特别提到“预测模型”的能力,用非常简单的 Power Law(幂次定律)去适配,它在比较小尺度模型上面去适配一个模型,然后适配预测模型,然后预测模型去预测这个模型在大尺度上会得到怎样的性能。GPT-4 训练的时候就根据这个预测结果去估计需要训练多少步,需要用多少数据等等。我觉得这的确是一个比较好的想法,对我们的研究也有启发。
之前 Scaling Law 已经有人具体研究了, Open AI 前两年也发过一篇文章,专门讲 Scaling Law 的。 这个定律体现的就是模型规模在不断跨级别的增长之后,模型的性能会带来什么样的变化。
绿洲:LLM 的突破对您现在的研究领域有什么启示或帮助吗?
李磊教授:研究要取得突破性进展不能只用一个套路。增加模型规模和训练数据是一种研究方法。我们追求不同的创新,我的科研小组最近在关注语音翻译和几百种语言的翻译问题,这些问题上的数据非常少,单纯通过加大模型和数据很快就到死胡同了。另一个非常重要的点是可信语言模型,我和同事王宇翔教授一起在语言模型隐私保护,知识产权保护,生成鉴别等方面已经做出了一些很有用也很前沿的方法,这是未来几年非常重要方向。
我和王宇翔教授指导的另外一个博士生赵宣栋博士,在做 Trustworthy NLP(可信自然语言处理)。什么叫可信?目前我们的核心关注点在三个问题上:
第一个和隐私有关,ChatGPT 这种模型是基于网上大量的数据训练出来的,网上的数据里面必然存在含有个人隐私的信息,很可能因为失误被放了出来,如果这些信息给大模型学到了,那么它生成内容的时候就可能包含个人住址、电话号码、年龄、性别、身份证号等个人隐私信息。我们现在在做就是如何在训练大规模语言模型的时候,能够让它保护用户的隐私,让模型学习脱敏,在不涉及敏感信息的情况下去做文本,对于生成式语言模型还是其他模型都一样,能够达到同样的隐私脱敏效果。我们核心的研究,是将 Differential Privacy(差分隐私)这个分析方法引入模型,定义一个可验证的私密信息保护训练方法,在这个方法下,我们能够去证明需要保护的敏感信息得到了有效保障,这个研究在去年北美 NAACL 会议上(三大NLP 顶级会议之一)上已经发表了。
第二是知识产权保护。我这里指的是模型的知识产权,也就是说 Open AI 把 ChatGPT 的 API 放出来给大家用,可以通过查询这个 API 得到输出结果,结果和原来的查询匹配起来之后,就可以用这一部分数据去训练出拥有相似能力的模型。也就是说,你把原来 API 的能力给“偷”过来了。如果每个公司都开放 API ,那就很容易被协同。我们在做的事情就是如何保护这个模型本身,使得模型一方面可以开放 API 让大家正常使用,另一方面如果有人来偷取 API 里的数据,通过知识阵列的方式重新训练出一个类似的模型,我们能够检验出你是不是从我这边偷过去的。当然我们并不是能保证这个模型不被偷,没法做到这一点,因为模型通过 API 还是要正常查询的。但如果通过“知识蒸馏”的方式去把它学过来,那么我们可以有证据证明你模仿的这个模型是从哪一个模型模仿出来的。这是我们去年在 EMNLP 会议上面发表的一个工作。
第三方面是关于模型生成内容的版权保护,不仅仅是版权,现在有很多人用 ChatGPT 来作弊,比如说你交作业,你可以用 ChatGPT 写完作为自己的作品交上去对吧?我们核心要解决的一个问题就是我们是否能够研发一个方法,去自动判断 ChatGPT 生成的文字,是模型生成的,还是人写的。核心的想法就是加上一些比较机密的信息,使得这个信息在直接读文字时,看起来是正常的,但通过我们的检测方法,就能校验到底是不是模型生成的。当然这个问题要解决还是很困难,我们还在研究当中。如果生成的文字非常非常短,那是很难去检测出这个文字到底是人写的还是模型生成的。
前两个研究内容我们都有公开的结果了,公开论文可以参考。
——
1. Provably Confidential Language Modelling
https://aclanthology.org/2022.naacl-main.69/
2. Distillation-Resistant Watermarking for Model Protection in NLP
https://aclanthology.org/2022.findings-emnlp.370/
3. Protecting Language Generation Models via Invisible Watermarking
https://arxiv.org/abs/2302.03162
绿洲:万一是人和机器一起混着写的怎么办?置信区间如何把控?
李磊教授:这是非常难的。OpenAI 的检测是另一个讨论,现在全世界大概有三四个组在做这个问题, University of Maryland 也在做。大家现在都提出了不同的方法, OpenAI 自己的方法准确率不是很高,他们没有动力去做这个,从策略上说应该是有其他人来做,OpenAI 不能既自己出 API,又自己做裁判。
绿洲:最近 Bill Gates 的文章中提到教师使用模型批改作业,LLM 在教育领域的发展前景如何?
李磊教授:模型自动批改不是新鲜事了。国内 2021 年之前都在做这个,后来发现没法盈利,就不做了。
我相信 AI 在教育方面可以起比较大的作用,但是政策到底是什么样,还需要整个社会来探索和判断。我看到有一些学校非常鼓励学生用 AI,但绝大部分学校还是比较谨慎。我可以说两个不同的策略,比如我们今年投写论文,ICML 和 ACL 就采取了不同的策略。ICML 是绝对不允许使用模型去生成论文里面的任何部一部分内容的;ACL(NLP三大顶级会议之一)的策略是:如果你使用 ChatGPT 的方式和使用 Grammarly 一样,也就是说你只用 ChatGPT 来修改你文章里面可能出现的错误,比如把不通顺改通顺,这就完全可以接受。这也反映出不同领域专家的不同意见。当然因为 ACL 是我们 NLP 的顶会,相对来说 NLP 的研究员,对这个领域产生的技术还是会更宽容,也乐于见到这样的技术在帮助人写作。
绿洲:最近市场变量很大,您感觉底层的模型能力会一直有突破吗?还是过了两三年之后可能会增益会递减,遇到瓶颈?
李磊教授:LLM 的能力是否会不断提升,取决于数据和模型大小。从数据而言,GPT-4 已经从文本跨越到图片,那后面再要提升,可以知道文本侧的数据已经接近极限了,如果要再提升,应该从其他模态的数据结合进来,再去做提升,那是有可能的,光靠文字来训练就比较困难了。
斯坦福发布的 AIpaca 比 GPT-3 小几十倍,它用的方法是之前一篇名为 < Self Instructor > 的论文,核心原理接近于杰弗里·辛顿(Geoffrey Hinton)大约 10 年前写的 < Dark Knowledge > 的文章,他提出了一个方法叫 Knowledge Distillation (知识蒸馏),即如何去做到一个小的模型,又能够达到大模型的效果。在有指令,有提示,有回应的条件下,去做生成的“蒸馏”。我们就是用这种方法做出一个小模型,很多人都在这样做,效果都比较好。
图片由 Tiamat 创作生成
模型的大小,肯定是增益递减,从之前的一些分析研究来看,都是模型需要增加 10 倍,可能是线性提升,所以模型增长实际上需要的尺度非常巨大。现在的模型已经是千亿级别,你再乘以10,再乘以100,这个大小恐怕会相当困难。因此再往后模型未必是越来越大,可以走别的方向。
绿洲:这是不是意味着各个领域训练各自的大模型比较靠谱,而不是一把屠龙刀斩遍天下?
李磊教授:现在的结论已经是这样了,不需要再做研究验证,各个领域单独的模型是会更好。只不过各个领域单独的模型从哪里来?不是说各个领域单独训练,而是先从一个统一的大模型出发,比如说从 ChatGPT 出发,或者从 RoBERTa 出发,理解类的模型文化一般都是从 RoBERTa 出发,从这些预训练好的模型出发,再在各领域独特的数据上面去开发。从研究角度看,这已经是大家熟知的,没有新意了。但是从效果上来看,通过微调这种方式,它的效果是更好的。
绿洲:您觉得 OpenAI 这条路最终能走向 AGI 么?你觉得广泛定义下的 AGI 多久后会到来?
李磊教授:目前看还不能。刚才谈到的一些问题,比如说复杂的推理,跟事实有关的生成,其实都做得不太好。我们组最近关注的除了文本生成的自动评估,可信文本生成,后面还有基于自然语言的复杂推理,我们认为这些都不是光把模型增大或者是光把数据增大就能够带来的。
我期待的 AGI 是能够完成基本的助手能做的工作。现在已经有希望了,但多久能来很难预测,多给我们实验室投资赞助科研经费会更早带来 AGI。
我们最近也做了两个基准,一个是复杂类比推理,另外一个是复杂逻辑推理,比方说在公务员考试当中会看到一些类似的试题,需要你反应比较快,同时有比较强的逻辑推理能力。这类问题对于 ChatGPT 或者 LLM 来说都很困难。
现在 OpenAI 测试的很多问题,本质上是一个预测问题。ChatGPT 这类模型,在预测类的问题上,尤其是出现次数比较多,在网上就可以找到类似陈述的问题上,会做得比较好。GPT-4 也证明了这一点,比如历史类的问题回答得特别好。涉及英语的问题,相对能够回答;但是对另外一类英语的问题我们目前还没有搞明白为什么它回答得不好;Codeforces 里编程问题也回答得不好,比如信息学竞赛竞争编码的这类试题,模型具备一定的回答能力,但是能力并不是特别强,这点也被验证了。但 GPT-4 的能力究竟来自于哪里?还有一些疑问没有被完全验证,比如有人试过拿 2021 年之前的 Codeforces 问题去给它做,十道全对,拿 2021 年之后的新问题去问,却一道也回答不出来。
绿洲:所以还是记忆力的问题么?
李磊教授:现在没有明显的证据表明是记忆力的问题。OpenAI 自己写的 GPT-4 文档中表示测试的部分已经去重,在训练集里出现的全部都去掉了,这个方法看上去是合理的,也做到了,但是从结果上无法解释为何针对 2021 年前的问题效果可以达到 100%,之后的问题却是 0%。
当然我们期待它真的能去做出一些问题,10 道 IOI 竞赛题生成一个完全正确的程序去做出 1 个答案,都是非常不容易的。
绿洲:LLMs 对行业会带来的怎样的影响呢?
李磊教授:几年前专门做对话以及客服的公司很火,现在这些公司都需要想一想未来的路怎么走。大象打架,压死的可能是旁边的蚂蚁。
重复的事务性工作会逐步自动化、智能化。跟这些有关的公司要么成为龙头企业,要么需要考虑转型。
AI 的发展一直是在不断把简单重复性的工作自动化,这个趋势仍然会在未来十年甚至上百年都会继续。“简单”的标准一直在提高。以前打电话需要接线员,开电梯需要专门电梯员,现在都不见了。我期待有一天部分老师的工作也能被 AI 来完成,例如习题课讲解,这个可能在未来一两年就可以实现。当然商业模式能否可持续发展是另外需要考虑的。
绿洲:大模型的时代下,竞争者是否能者通吃?
李磊教授:对云计算巨头是利好,对大规模模型计算需求会增加。开源还是闭源,这是各个公司根据自己诉求和位置来做的决定。我们期待技术不是垄断在一个玩家手里。
绿洲:小公司如何抓住 ChatGPT 的逆袭机会?
李磊教授:小步快跑,用高效经济的商业模式和产品,解决领域独特问题,形成可持续的造血能力,同时积累行业经验和数据壁垒。
图片由 Tiamat 创作生成
绿洲:普通人如何拥抱 ChatGPT ?报考计算机专业还有前途吗?
李磊教授:我今年在教本科生深度学习课,相对去年,今年课满到很多学生在候选队列里都选不上。ChatGPT 的出现更推动了大学教育应该把人工智能课作为所有大学生的必修基础课,放到和写作、数学等公共课同等重要的程度。是否报考计算机科学专业,这还是要依据学生的兴趣和长期职业规划。从就业角度,计算机专业仍然是有巨大机会的,甚至是目前大学阶段前景最好的专业。
绿洲:OpenAI 的组织设计给创业者带来哪些启示?
李磊教授:一定要招最优秀的人,一定要敢于冒险(招年轻人)。
参赞生命力你觉得什么是科技生命力?
作为高校教授,我深知科技生命力的重要性,它需要不断有新的人才涌现,这就是我的使命。
—— 李磊教授 ,加州大学圣巴巴拉分校助理教授
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。(原标题:《绿洲对谈李磊教授:大象打架,蚂蚁死了》)