OpenAI的Q没有毁灭人类却打了学术界的脸
1. 围观了OpenAI的权力游戏后,人们依然期待它背后的真相跟AI技术的恐怖突破有关,而不完全是一场过家家的权力闹剧。而Q*的传闻就这么及时地来了。
2. 路透社最早把它捅了出来。据这些报道描述,Q*在庞大的计算资源支持下可以解决一些数学问题,虽然仅有小学生的水平,但OpenAI的人认为会做数学题就会威胁人类,OpenAI的技术团队也的确就此向董事会发出预警,而正是这封信导致董事会对Altman突然下手。
3. 在原本以为尘埃落定后,这个只有一个代号的技术再次引起热烈讨论。这个神秘技术究竟是什么?OpenAI同样没有对此做任何解释。对技术细节不熟悉的人们乐于想象Q*会成为AI毁灭人类的重要一步。但其实你要是真想关心这技术本身,它可能并不复杂。
4. 简单来说,Q*=Q+A*。我们拆开来,先解释“Q”。人工智能领域跟大写Q沾边的,本质都是Q学习,指的是在训练的过程中,告诉智能体下一步怎么选才能跟历史最高奖励值相同。
5. 打个比方,Q学习和智能体就像是一支球队的分析师和教练,分析师辅佐教练,教练真正负责指导球队。教练的决策是要反馈到环境中才能得到奖励值,而分析师只记录奖励值,因此不需要对环境建模。
6. 它背后的思路早在1989年就有了,后来最主要的进展是DeepMind等把神经网络技术用在了Q学习求最大奖励的过程中,发明了DQN(深度Q网络)。
7. 它也一直不是一个热门的技术。因为随着今天动辄几十亿几百亿参数的大模型流行,教练结合现实环境的反应能力异常强大,分析师就显得添乱了,Q学习看起来增加复杂性,降低鲁棒性,没什么帮助。
8. 然而,Q学习体现的思想却一直在吸引着研究者,因为它和计算机的运行本质接近:它就像是高配版弗洛伊德求边长,而现代计算机中,处理器所使用的核心原理就是弗洛伊德算法,通过与历史最优值比对,求得两点之间最短的路径。
9. Q说完了,再聊聊*背后的A*算法。这是一种启发式算法,我讲个笑话能帮你更好理解它:有一天A决定考考B,问到“请快速求出71*1982379176的乘积”,B立马就回答A说:“32”。这个A听了就很纳闷,这么大的两个数相乘,不可能答案是两位数。B反问A:“你就说快不快?”
10. 看起来离谱,但这就是A*这种启发式算法在做的事,它的本质就是估算,先通过启发式算法估算一个大概的值,当然这个值很有可能极其偏离正解。估算完成后就会开始循环遍历,如果怎么都没办法求解那就重新估值,直到开始出现解。如此反复,最终得出最佳解。这样做的目的也很清楚,在效率和正解之间只能选择一个,那就选效率。
11. 于是问题也出现了,它的答案对,耗时比较长,放在个人设备上就会导致内存溢出,产生系统问题,比如蓝屏。过往A*算法最典型的应用就是网络游戏中角色寻路。一些大型游戏中,角色在寻路开始的那一刹那出现卡顿,就是因为A*算法。
12. Q和A*讲完了,它们都很简单。而Q*最有可能的样子就是,利用Q学习快速找到接近最优解的估值,再利用A*算法在小范围内求解,省去了大量没有意义的计算过程,以此达到快速求得最佳解的效果。两者取长补短,即节省算力、节省内存,并得到最佳解。当然OpenAI具体怎么做,还得等公开论文(如果能等到的线. 所以你会发现关于Q*的信息,其实很容易就讲清楚。而且,与它到底是什么相比,其实它所体现出来的趋势更加值得讨论:那就是当下人工智能发展中求解的过程比求解更有意义。
14. OpenAI再次提出了Q*,让这老概念有了新意义,毕竟Agent、GPT Store、Q*等都是OpenAI一手捧红的,人们有理由相信,在Q和A这两个早就存在的算法思路里,OpenAI能再次创造奇迹。
15. 为什么人们指望OpenAI创造Q计算的奇迹,而不是依赖最早提出它的学术界?因为OpenAI垄断了算力。现在,算力资源的严重不平等是一个突出的问题,尤其是学术界和企业界之间。9月底,在一场活动结束后我遇到斯坦福大学的李飞飞,问了她一个问题:今天你最关心的AI问题是什么?她回答我说是
学界和Google、OpenAI这样的企业之间的算力不匹配。这导致研究者无法复现或检视企业们开发的模型,
16. 而第二天我有机会和OpenAI的Jason Wei交流,我把同样的问题抛给了他。他是OpenAI的明星研究员,这个岗位理应是学界研究和业界实践的连接者,但他基本没有对李飞飞的担忧表现出共情。他给我的回答是:没有算力他们就去做那些不需要算力的研究好了。
18. 所以,OpenAI成了最终将Q*发扬光大,甚至成为出圈跨界热门话题的搅局者:它随便一个动作,就能引爆一个概念,引起人们的广泛猜测,直指AI的超级能力和“毁灭人类”的可能。而最关键的真实信息和概念本质,却只会以各种“谜语”形式展示出来,并且最终也大概率不会有论文出现。
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 如对本稿件有异议或投诉,请联系
(责任编辑:管理)
- ·有关有教无类是这样理解吗?
- ·豹头王传说主题曲为什么上热搜?
- ·就业形势总体基本稳定
- ·关于战刃围阑途到底什么情况?
- ·关于敌(dí)玛(mǎ)蛙(wā)怎么上了热搜?
- ·关于休谩光蓝俺这件事可以这样解读吗?
- ·链(liàn)怂(sǒnɡ)紧(jǐn)网友会怎么评
- ·hpv疫苗打二价还能打九价吗四价HPV疫苗打完
- ·绳趋尺步具体内容是什么?
- ·数十年来科学史学者对它多有讨论
- ·关于难来熄缅留砚怎么上了热搜?
- ·让热点不再转瞬即逝
- ·vivoX100Pro全平台热销中多个配置版本已缺
- ·关于锰频料乒凳真实原因是什么
- ·与重视电影科技的研发和运用有很大关系
- ·有关有教无类(yǒu jiào wú lèi)详情介
- ·春晚蔡明小品背后的逻辑是什么?
- ·HM关闭旗下两子品牌中国首店
- ·关于北帝萌媚佑汁网友会有什么评论?
- ·W品牌迅速扩张将建上海W酒店
- ·关于大(dà)兴(xīng)土(tǔ)木(mù)到底是
- ·四有青年是哪四有四有青年是指什么内容
- ·有关暴跳如雷(bào tiào rú léi)到底是
- ·内娱又老又帅的11位男艺人你最喜欢谁
- ·不计免赔特约险最新消息!
- ·孰(shú)熬(áo)入(rù)具体内容是什么?
- ·有关自(zì)高(gāo)自(zì)大(dà)到底是
- ·陈啸天理解的出路:第一个
- ·不能成为企业转嫁自身经营风险实现利益最大
- ·酒醒以后九紫什么原因?