type
status
date
slug
summary
tags
category
icon
password
URL
Rating
目录:
《苦涩的教训》from Rich Sutton, 2019Stanford CS 25 | Transformers UnitedJason Wei 的观点Next-word prediction (on large data) is massively multi-task learning.Scaling language models (size * data = compute) reliably improves loss.While overall loss scales smoothly, individual downstream tasks may scale in an emergent fashion.Picking a clever set of tasks results in inverse or U-shaped scaling.ConclusionHyung Won Chung 的观点LLM对齐中的一些概念Instruction fine-tuning (IFT)References
《苦涩的教训》from Rich Sutton, 2019
Rich Sutton 于 2019 年写的《苦涩的教训》这篇文章很出名,搞 AI 的朋友建议都看看。
全文用 ChatGPT 翻译如下:
苦涩的教训
Rich Sutton
2019年3月13日
从70年的人工智能研究中可以得出的最大教训是,利用计算能力的通用方法最终是最有效的,这一优势非常显著。其根本原因在于摩尔定律,或者说计算单位成本持续指数级下降的普遍趋势。大多数人工智能研究都是假设代理可用的计算能力是恒定的(在这种情况下,利用人类知识是提高性能的唯一方法之一),但是,在比典型研究项目稍长的时间内,大量计算能力必然会变得可用。研究人员为了在短期内取得进展,试图利用他们对领域的人类知识,但从长远来看,唯一重要的是对计算能力的运用。这两者不必互相对立,但实际上往往会互相对立。花在一个方面的时间就没有花在另一个方面的时间。对一种方法或另一种方法的投入有心理上的承诺。而基于人类知识的方法往往会使方法复杂化,从而使它们不太适合利用计算能力的通用方法。 有许多人工智能研究人员迟迟领悟到这一苦涩教训的例子,回顾一些最突出的例子是很有教益的。
在计算机象棋中,1997年击败世界冠军卡斯帕罗夫的方法是基于大规模的深度搜索。当时,大多数计算机象棋研究人员对这一方法感到沮丧,因为他们追求的是利用人类对象棋特殊结构的理解的方法。当一种更简单、基于搜索的方法结合特殊的硬件和软件被证明更有效时,这些基于人类知识的象棋研究人员并不是好的失败者。他们说,这次可能是“暴力”搜索赢了,但这不是一种普遍的策略,而且无论如何,这也不是人们下象棋的方式。这些研究人员希望基于人类输入的方法能够获胜,当它们没有获胜时,他们感到失望。
在计算机围棋中,也看到了一种类似的研究进展模式,只是推迟了20年。最初的巨大努力集中在通过利用人类知识或游戏的特殊特征来避免搜索,但一旦有效地大规模应用搜索,这些努力都被证明是无关紧要的,甚至更糟。还重要的是通过自我对弈来学习价值函数(就像在许多其他游戏中一样,甚至在象棋中,尽管在1997年首次击败世界冠军的程序中,学习并没有发挥重要作用)。通过自我对弈学习,和一般的学习,像搜索一样,使得大量计算得以应用。搜索和学习是利用大量计算能力进行人工智能研究的两个最重要的技术类别。在计算机围棋中,就像在计算机象棋中一样,研究人员最初的努力是利用人类理解(以便需要更少的搜索),只有在后期,通过接受搜索和学习,才取得了更大的成功。
在语音识别方面,20世纪70年代有一个由DARPA赞助的早期竞赛。参赛者包括许多利用人类知识的特殊方法——关于单词、音素、人体声道等的知识。另一边是一些更新的方法,这些方法在本质上更具统计性,并进行了更多的计算,基于隐马尔可夫模型(HMMs)。同样,统计方法战胜了基于人类知识的方法。这导致了整个自然语言处理领域的重大变化,逐渐在几十年间,统计和计算占据了主导地位。最近在语音识别中崛起的深度学习是这一持续方向的最新一步。深度学习方法更少依赖人类知识,使用更多的计算,结合对海量训练集的学习,产生了显著更好的语音识别系统。就像在游戏中一样,研究人员总是试图让系统按照他们认为自己的思维方式工作——他们试图将这种知识放入他们的系统中——但最终证明这是适得其反的,当通过摩尔定律,大量计算变得可用并找到了一种有效利用它的方法时,这对研究人员来说是巨大的时间浪费。
在计算机视觉中,存在类似的模式。早期的方法将视觉设想为搜索边缘或广义圆柱体,或根据SIFT特征。但今天,这一切都被抛弃了。现代的深度学习神经网络仅使用卷积和某些类型的不变性概念,并且表现得更好。
这是一个重要的教训。作为一个领域,我们仍然没有彻底领会它,因为我们仍在继续犯同样的错误。要看到这一点,并有效地抵制它,我们必须理解这些错误的吸引力。我们必须学会这个苦涩的教训,即建立在我们自己猜测人类思考的方式上从长远来看是行不通的。这个苦涩的教训基于以下历史观察:1)人工智能研究人员经常试图将知识构建到他们的代理中,2)这在短期内总是有帮助的,并且对研究人员来说是个人满意的,但 3)从长远来看,它会达到平台期,甚至抑制进一步的进展,4)突破性进展最终通过一种基于搜索和学习的计算扩展方法到来。这种最终的成功带有苦涩的色彩,而且通常消化不完全,因为它是在一个受欢迎的人类中心方法上取得的成功。
从苦涩的教训中应该学到的一件事是通用方法的巨大威力,即使在可用计算量变得非常大的情况下,这些方法仍然可以继续扩展。看起来可以随意扩展的两种方法是搜索和学习。
从苦涩的教训中学到的第二个普遍点是,心智的实际内容是极其复杂且无法挽回的;我们应该停止试图寻找简单的方法来思考心智的内容,比如简单地思考空间、物体、多个代理或对称性。所有这些都是任意的、本质上复杂的外部世界的一部分。它们不是应该被构建的内容,因为它们的复杂性是无穷无尽的;相反,我们应该只构建能够发现和捕捉这种任意复杂性的元方法。这些方法的关键在于它们可以找到良好的近似,但对它们的搜索应该通过我们的方法,而不是通过我们自己。我们希望人工智能代理能够像我们一样发现,而不是包含我们已经发现的内容。将我们的发现构建进去只会让我们更难看到发现过程是如何完成的。
Sutton 的几个重要观点:
- 把人类掌握的领域知识加入到建模过程中短期内会带来成效,但是长期看其实是对模型的桎梏。长期看唯一重要的是算力。
- 不要试图让 AI 学会我们以为的人类思考方式。
- 不要试图寻找简单的方法来理解心智。人类已掌握的抽象知识都只属于世界的外围具象,它们的复杂性是无尽的,不应该被建模。我们应该只构建能够发现和捕捉这种任意复杂性的元方法。
Stanford CS 25 | Transformers United
简单翻了下斯坦福的这门课:Stanford CS 25 | Transformers United,有几章讲的还是蛮好的。 一些有感触的点摘录如下。
Jason Wei 的观点
一定要自己多标数据,亲手做脏活,别来老想着优化算法来个降维打击。
Next-word prediction (on large data) is massively multi-task learning.
这个观点挺有意思。
Scaling language models (size * data = compute) reliably improves loss.
While overall loss scales smoothly, individual downstream tasks may scale in an emergent fashion.
随着 loss 平稳下降,不同任务可能受益差别很大。有些任务前期就受益很大,而有些任务可能后期受益更大。所以不同阶段的模型可能在不同的任务上表现差异较大。
Picking a clever set of tasks results in inverse or U-shaped scaling.
随着模型 size 逐渐变大,在有些任务上可以观察到效果先降后升(U 型)。此时,可以尝试把任务分解成细分任务去思考原因。比如下图左边这个任务:
Conclusion
<ins/>
Hyung Won Chung 的观点
作者很认同 Sutton 的观点:
- 约束条件(模型假设)更少更通用的方法更值得投入;
- Scaling Laws(数据和计算量)是 AI 发展的核心驱动力。
计算成本会指数级下降。
不要试图让 AI 学会我们以为的人类思考方式。
给模型更多的自由,让模型自由决定如何学习。刚开始时可能模型学的比较差,但如果确定模型可以学的比较好时,我们可以提供更大的算力让模型学的更好。
LLM对齐中的一些概念
Instruction fine-tuning (IFT)
<ins/>
References
- 别人搬运的 B 站视频:https://www.bilibili.com/video/BV1fZ421j7zf?p=2&vd_source=e6243dcc9314341b281f7f3d5622b985
- 作者:Breezedeus
- 链接:https://www.breezedeus.com/article/scaling-laws
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章