隨著近年來(lái)大模型的迅猛發(fā)展,知識(shí)蒸餾(Knowledge Distil ation)逐漸成為人工智能領(lǐng)域一個(gè)備受關(guān)注的話(huà)題。尤其是在近期,DeepSeek憑借其在技術(shù)上的突破和創(chuàng)新,不僅讓自身聲名鵲起,也將知識(shí)蒸餾這一概念帶入了公眾的視野。那么,何為知識(shí)蒸餾呢?它究竟是如何在人工智能領(lǐng)域發(fā)揮著重要作用并推動(dòng)著技術(shù)的不斷進(jìn)步,這值得深入探究。
作為一種強(qiáng)大的模型壓縮技術(shù),知識(shí)蒸餾是人類(lèi)社會(huì)中教師與學(xué)生關(guān)系在人工智能領(lǐng)域的延伸:在人類(lèi)社會(huì)中,知識(shí)儲(chǔ)備較少、學(xué)習(xí)能力較弱的學(xué)生可以向知識(shí)儲(chǔ)備豐富、學(xué)習(xí)能力更強(qiáng)的教師學(xué)習(xí)以獲取知識(shí),以此獲得比自學(xué)更高的學(xué)習(xí)效率。類(lèi)比到人工智能領(lǐng)域,研究人員發(fā)現(xiàn)可以將一個(gè)參數(shù)量較小、學(xué)習(xí)能力較弱的模型作為“學(xué)生模型”,將一個(gè)參數(shù)量較大、學(xué)習(xí)能力較強(qiáng)的模型作為“教師模型”,通過(guò)讓學(xué)生模型學(xué)習(xí)教師模型,獲得比學(xué)生模型直接從數(shù)據(jù)中學(xué)習(xí)更高的效率。這一種模仿人類(lèi)學(xué)習(xí)行為的算法在人工智能領(lǐng)域被稱(chēng)為“知識(shí)蒸餾”。知識(shí)蒸餾由圖靈獎(jiǎng)、諾貝爾獎(jiǎng)得主杰弗里·辛頓(Geof-freyHinton)正式提出,成為人工智能領(lǐng)域最重要的基礎(chǔ)算法之一。
知識(shí)蒸餾最早被用于減少模型的參數(shù)量,以此降低人工智能模型的存儲(chǔ)成本和計(jì)算成本。當(dāng)前的人工智能模型參數(shù)量大,其計(jì)算速度慢、存儲(chǔ)成本高,在實(shí)際應(yīng)用中存在諸多不便。例如,在自動(dòng)駕駛中,人工智能模型計(jì)算速度慢會(huì)導(dǎo)致自動(dòng)駕駛汽車(chē)無(wú)法快速地感知周?chē)h(huán)境,容易造成交通事故;在手機(jī)應(yīng)用上,人工智能存儲(chǔ)成本過(guò)高會(huì)導(dǎo)致其占用大量手機(jī)存儲(chǔ)空間,導(dǎo)致手機(jī)卡頓,影響用戶(hù)體驗(yàn)。早期的知識(shí)蒸餾讓參數(shù)量小、性能不佳的學(xué)生模型學(xué)習(xí)參數(shù)量大、性能好的教師模型。理想情況下,如果學(xué)習(xí)成功,小的學(xué)生模型掌握了與教師模型相同的知識(shí),那么就可以在繼承教師模型優(yōu)良性能的同時(shí)維持參數(shù)量小的優(yōu)勢(shì),實(shí)現(xiàn)“又小又好”。研究人員將這一過(guò)程與物理學(xué)中的“蒸餾”聯(lián)系起來(lái),意在通過(guò)此種方式將模型中無(wú)用的參數(shù)“蒸發(fā)”,將重要的知識(shí)保留,因此稱(chēng)為知識(shí)蒸餾。
在大模型時(shí)代,知識(shí)蒸餾受到了更加廣泛的關(guān)注。一方面,大模型的參數(shù)量與傳統(tǒng)模型相比有了百倍、千倍乃至萬(wàn)倍的增長(zhǎng),模型的參數(shù)成本和計(jì)算成本被進(jìn)一步放大,因此對(duì)于它們的壓縮和加速需求也就更加顯著。例如,DeepSeek V3模型有6710億參數(shù),是傳統(tǒng)人工智能模型BERT的2000多倍,這意味其計(jì)算耗時(shí)和存儲(chǔ)成本也增長(zhǎng)了千倍以上。為了將類(lèi)似DeepSeek的大模型在個(gè)人電腦、手機(jī)等小設(shè)備上部署,就需要進(jìn)一步探索和利用知識(shí)蒸餾技術(shù),將DeepSeek的知識(shí)提取出來(lái),存到小的模型上。
另一方面,大模型時(shí)代的知識(shí)蒸餾不僅體現(xiàn)了參數(shù)上知識(shí)的傳遞,也體現(xiàn)了數(shù)據(jù)上知識(shí)的傳遞。具體來(lái)說(shuō),如果一個(gè)人類(lèi)教師是學(xué)習(xí)過(guò)“數(shù)理化政史地”全科知識(shí)的教師,那么在授課過(guò)程中,即使他僅向?qū)W生教授單個(gè)科目的內(nèi)容,也有可能潛在地向?qū)W生傳遞他所具備的其他領(lǐng)域知識(shí)。類(lèi)似地,在人工智能中,如果教師模型學(xué)習(xí)了更加廣泛領(lǐng)域上的知識(shí),那么,在知識(shí)蒸餾的過(guò)程中,學(xué)生模型也可以間接地學(xué)習(xí)這些領(lǐng)域上的信息。例如,如果教師模型學(xué)習(xí)過(guò)中文和英文的數(shù)據(jù),而學(xué)生模型僅學(xué)習(xí)過(guò)中文的數(shù)據(jù)。那么,通過(guò)讓學(xué)生模型向教師模型學(xué)習(xí),學(xué)生模型即可間接地學(xué)習(xí)到英文數(shù)據(jù)中的知識(shí),實(shí)現(xiàn)能力的進(jìn)一步提升。這一行為也導(dǎo)致知識(shí)蒸餾引發(fā)了許多知識(shí)產(chǎn)權(quán)的顧慮:如果教師模型的知識(shí)是具備獨(dú)特知識(shí)產(chǎn)權(quán)的內(nèi)容,那么學(xué)生模型向教師模型學(xué)習(xí)的過(guò)程是否意味著對(duì)于知識(shí)產(chǎn)權(quán)的侵犯?對(duì)于這一問(wèn)題,各界尚未達(dá)成一致的認(rèn)知。從技術(shù)角度上看,判斷一個(gè)模型是否以其他模型為教師模型進(jìn)行過(guò)知識(shí)蒸餾訓(xùn)練也是非常困難的。因此,由知識(shí)蒸餾導(dǎo)致的侵權(quán)爭(zhēng)議也廣泛存在。
唐代文學(xué)家韓愈曾言,“弟子不必不如師,師不必賢于弟子”。這一現(xiàn)象在知識(shí)蒸餾領(lǐng)域同樣存在。人工智能領(lǐng)域?qū)τ谥R(shí)蒸餾中的教師和學(xué)生的認(rèn)知也有過(guò)三個(gè)不同的階段。早期的知識(shí)蒸餾通常認(rèn)為教師模型應(yīng)當(dāng)有比學(xué)生模型更強(qiáng)的智力水平,即“師賢于弟子”,以此才可以讓學(xué)生學(xué)習(xí)得更好。隨后,一些研究人員提出“自蒸餾”的概念,即認(rèn)為模型可以自我學(xué)習(xí),達(dá)到“吾日三省吾身”的自我反思的學(xué)習(xí)效果。多個(gè)學(xué)習(xí)能力相當(dāng)?shù)哪P鸵部梢韵嗷W(xué)習(xí),以此達(dá)到比單個(gè)模型更好的效果。同時(shí),有研究人員發(fā)現(xiàn),如果讓學(xué)生模型過(guò)分學(xué)習(xí)智能水平遠(yuǎn)遠(yuǎn)超過(guò)它的教師模型,反而可能會(huì)損傷學(xué)生模型的性能,即人工智能中的學(xué)習(xí)行為也應(yīng)當(dāng)逐步進(jìn)行,不可一步登天。近年來(lái),包括OpenAI在內(nèi)的一些研究人員又提出了“師不必賢于弟子”的思路,即認(rèn)為教師模型不需要超過(guò)學(xué)生模型的智力水平,只需要在某個(gè)特定能力上優(yōu)于學(xué)生,就可以繼續(xù)引導(dǎo)學(xué)生模型的學(xué)習(xí)。這一思路的提出為人工智能的進(jìn)一步演化提供了可能。倘若以人類(lèi)的知識(shí)作為教師模型,以人工智能模型作為學(xué)生模型,那么這種從以弱能力教師模型的引導(dǎo)實(shí)現(xiàn)更強(qiáng)能力學(xué)生模型的范式,也就意味著通過(guò)人類(lèi)知識(shí)的引導(dǎo)得到超越人類(lèi)智能水平的人工智能,這為通用人工智能的實(shí)現(xiàn)提供了一絲希望。
人類(lèi)的學(xué)習(xí)過(guò)程講求取其精華、去其糟粕,意在對(duì)于教師所傳授的信息進(jìn)行有選擇的學(xué)習(xí),避免對(duì)于錯(cuò)誤信息或不適于自身信息的盲目模仿。有趣的是,這一思路在人工智能中同樣是存在的。學(xué)者們發(fā)現(xiàn),如果讓學(xué)生模型學(xué)習(xí)教師模型輸出的所有內(nèi)容,往往無(wú)法達(dá)到最佳的學(xué)習(xí)效果。對(duì)于教師模型的知識(shí)進(jìn)行篩選,并僅學(xué)習(xí)關(guān)鍵的部分,有時(shí)可以獲得更高的學(xué)習(xí)效率。同時(shí),在大模型時(shí)代,學(xué)生模型向教師模型學(xué)習(xí)的過(guò)程可能會(huì)導(dǎo)致學(xué)生模型的價(jià)值觀受到教師模型的影響。例如,如果教師模型是由西方世界的數(shù)據(jù)為主所訓(xùn)練的,那么向其學(xué)習(xí)的過(guò)程會(huì)導(dǎo)致學(xué)生模型的認(rèn)知也受到西方世界的數(shù)據(jù)中的偏見(jiàn)影響,進(jìn)而引入對(duì)于特定群體的刻板印象乃至偏見(jiàn)。因此,在大模型的知識(shí)蒸餾過(guò)程中如何避免價(jià)值觀的污染,也是知識(shí)蒸餾研究的重點(diǎn)問(wèn)題。
綜上所述,知識(shí)蒸餾是人類(lèi)社會(huì)中師生概念在人工智能領(lǐng)域的延伸,其研究思維和方法也與人類(lèi)社會(huì)中的學(xué)習(xí)行為不謀而合,體現(xiàn)了人類(lèi)智能和人工智能的呼應(yīng)。在發(fā)展的過(guò)程中,知識(shí)蒸餾也引起了數(shù)據(jù)產(chǎn)權(quán)的爭(zhēng)議與人工智能價(jià)值觀問(wèn)題的潛在風(fēng)險(xiǎn)。安全、可控、有效的知識(shí)蒸餾算法的實(shí)現(xiàn)需要社會(huì)各界的統(tǒng)一協(xié)作。
