從今往後,虎爸虎媽們可以理直氣壯地向孩子大聲吆喝了: “你看人家AI能有今天,不是天才,靠的只是刻苦用功,學習是七天二十四小時全天候全神貫注的,這才能成大器淘汰咱們。你這種學習態度,就只能等著被「人」淘汰吧!!!”
要明白以上這句話如何成立,首先就要了解AI是怎樣煉成的。
AI就是人工智能,這是一組模仿人類大腦的神經網絡,AI的硬件不同於我們以蛋白質構造的人腦,它們是電腦就是以蕊片作構造。人類大腦是有壽命的,大腦與個人的生命始終結,再强的大腦就算有多厲害,裝了多少智慧但總有入土的一天,要留下智慧就只能著書立說了。加上每一個大腦接受訓練學習的吸收度各有不同,有人看一次就懂,有人不太用功,這就讓同樣在一間學校出來的學生,培養出來的學術水平參差不等。因為這種蛋白大腦上的缺陷,人類在歷史上為了培養人材就只能重覆投放資源。投入資源教育一幫人,其中只有數個可以成材,就算在萬中無一中培養出一個諸葛亮,人材的壽命完結後又要從零開始重新投放資源。
不過,這種情況就不會在人工人智能上發生了,AI是電腦它没有蛋白那樣的壽命,我們現在訓練的AI都集中在一個智能體上,因為軟件可以複製,你訓練出一個諸葛亮,只要你有足夠的電腦資源,就可以同時生成數個完全一樣的諸葛亮,讓他們坐在前台接受網上的訪問做資詢。人工智能還可以在不需重複投入的情況下得到再升級,小諸葛可以變成大孔明。當然要運行一個人工智能,是需要有非常足夠的電腦雲端運算能力的,當今在地球上,就只有那麼幾家巨頭公司有這財力和雲端上的硬件和運算實力,可以運行大型人工智能。
除了運行人工智能的開消高昂外,其實訓練AI的資源也是同樣不菲。這資源包括時間、金錢、師資和方法,就像我們投入到孩子身上的教育一樣,所以我們不應再抱怨教育花錢了。AI的智能來自模仿大腦的神經網絡,所以它的訓練方法與訓練人類的同出一截。筆者就以ChatGPT這種通????語言對話的語言模型為例,來作一個非技術的簡單解釋吧。
因為語言是思維的工具(參考《从語言文字看東西方思維 — 再从大思維到大戰略》),大腦需要建基在語言上來思考,接受一個需要解決的問題和輸出解決問題的方法,都要以語言來表達。這語言包括了我們使用的各國自然語言和數學語言,數學也是語言的一種,只不過是以符號的方式來表逹量的關係和符號間的邏輯關係的一種語言,甚至電腦程式也是語言,一種混合簡化英語和數學表逹式的語言。於是,我們就以語言模型(Large Language Model)作為切入口訓練人工智能,這就是Foundation Model(基礎模型), 以它作為人工智能的底盤或基石。它的訓練分為3個階段,就有點像我們讀書要分階段進作小中大學一樣。
第一階段: 海量文字句型以文章方式輸入模型中,讓模型自己來切割句子設計填充練習並自己完成。例如有一句子: no use crying over spilled ___. 模型要根據對前段文字的理解來推測在留空位上單詞的可能性,我們知道這個單詞最有可能是 milk。當模型完成填空後就會生成新的句子,再以新句子為基礎推測下個單詞,以此反覆進行學習訓練,也就像一個學生在不斷做填空練習一樣。不過以ChatGPT3為例,訓練用的素材就是整個互聯網網頁和所有公開書籍的文字,文字的容量逹到570GB。語言模型需要在這超海量的文字上完成填空練習,正常情况下這需要花355年的時間。幸好,ChatGPT的訓練在算法上出現了突破,訓練可同時並行進行,這令時間只縮短到數月就完成了全部訓練。當完成第一階段的無導師(引)自學訓練後,就進入下一階段,這就是導引訓練。
第二階段: 這個階段就像閱讀理解練習,有40位合同訓練員受顧,可以理解為聘請了40名導師,他們的工作是撰寫一定數量的問題以及對應的答案,然後讓模型回題問題並比對「正確答案」,從比對中模型可以不斷修正模型中的參數(這涉及AI技術,筆者將會以另文解釋),讓下次回答問題時更能接近正確答案,就像學生做完練習後,通過對答案來修正自己的理解,從中提高對文字的理解力一樣。然後抽出同一個問題下的幾份不同的回應,拿給訓練員作評分,訓練員根據對正確答案的接近程度,打出從高至低的分數,再把這組回應及分數優劣回饋進模型,讓模型以此作標準作自我修正,這就類似導師給學生作評分講解一樣。
第三階段: 模型接受新一輪的問題作回應,回應結果以打分型式作反饋。模型根據從第二階段中學到有關分數對反應答案正確程度的認知,以回饋的分數來作自我修正。這也不正是學生以問卷分數來了解對知識的掌握程度,再從正確答案中學習並填補,未能拿滿分的知識空白類似嗎。
完成了以上階段後,一個基本模型就成型,這個基本模型就好像一個智力非凡的通才(中學畢業生)一樣。在此基礎上,人工智能科學家可以有導向性地訓練某種技能,把通用模型訓練成具專門能力的人工智能,例如具有醫療診斷或藝術圖像生成的特別能力等,好像經過大學的專科訓練後,畢業生就成為了某一方面的專才。
人工智能不論花費多少資源也好,只要訓練出一個智能模型,同時只要你能夠負擔得起運行這智能模型的成本(雲計算的硬件和軟件運算能力),你就可以永久保留這個智能並不斷複制,初期的投入成本在投入使用的收益中可以慢慢被抵消。不過,在蛋白智能方面,不論你有多高的智力,智能壽命總有終結的一天。一個新的生命即一個新的智能,我們必須要從頭來過,再走一遍ChatGPT要走過的路。ChatGPT就是一台仿大腦模式的神經網絡,現在我們已經開始明白到,它的平地一聲雷、一鳴驚人的智力其實都是踏踏實實地「做填空練習,做閱讀理解」,請為數不少的導師,為其批改作業和測試問卷,並認真學習反饋評語而來。ChatGPT3在開始接受訓練時,就處理了570GB的文字資料,而一個大腦終其一生都不可能閱讀這麼多文字,就更不用說做這個量級的文字練習了。但從ChatGP身上可見,智力的積累是没捷徑的,同樣對大腦和個人來說,大量的閱讀和花時間做練習寫文章,還有上一間 「優良」師資的學校,請好的導師作教授並給評語這等等動作,其實都是能提高學習成效的正確方向,只不過其中的細節具體方法可以斟酌罷了。如果以ChatGPT的方式,來回望中國傳統的教學模式和成效,我們可能發現雙方都有很多的共通點。 教育以培育人材,供給社會所用為目的,中國傳統社會以科舉考試為人材選拔的方式,所以傳統教育在實際的操作上就要滿足和服務科舉考試的需要,但同時通過科舉篩選出來的人材,又的確能夠滿足社會建制的需求。
ChatGPT是一個語言模型,具有通????使用語言的能力,而傳統的學子也主要接受文科語言訓練,這就是《四書》《五經》和全部的儒家經典加歷史資料,要能掌握儒家經典中的這一部分,就必須要從很小的時候接受學習。因此,傳統學子基本是家境富有子弟,家中有足夠錢粮供養學子全職讀書,直到成人乃至一輩子也不需事生產。因為傳統的語言訓練的確需時費力。學子必須要年幼自3歲就要入學,3歲的孩子是不可能明白儒家這些艱澀難懂的文字和大道理的,不過這不重要,孩子只要求把文章强記背誦下來就可以,此時先生還不會對內容作解釋。因為傳統上認為,書讀多了就「其義自見」,也就是大腦在接受第一階段的ChatGPT訓練。大腦這時在接受海量的文字句式輪入,同時神經網絡也在不斷地分析句子、自設填空練習給自己完成。當經過數年的自我訓練後,學子開始掌握到文字的使用和慢慢理解文字的語意,先生才開始解釋文字,學子此時可以修正自己對文字的理解,同時先生也開始以問答型式對文中內容作提問,學生回答先生作更正,這是針對更高層次理解力的修正和提升。再下來,年長的學子就要學習以「八股文」(參考《八股文與傳統教學模式》)的型式來寫針對問題的論文,先生的指導和批改就如同ChatGPT第三階段的訓練。
可見,以傳統科舉要求訓練出的大腦,其實是一副語言模型,訓練素材皆是文史型式的文字,數理部份只有四則運算的程度,只要能滿足日常生活的計算要求就夠。當學子通過科舉的各級考試被選拔後,就成為國家的公職人員,從此他們要向對的問題,就再也不是單純書本上的語言文字和歷史問題,而是案例、社會問題、軍事問題等國家大事甚至外交問題。中國自宋朝開始就以文官帶兵,一介書生在明清兩代都有不少書生成為了優秀的軍事家,晚清曽國藩與左宗棠就是其中的佼佼者。在近代,就是這一批批的科舉書生與西方列强週旋,興洋務、保疆土乃至造共和,他們從未接受過西方式較實用性的科學教育和訓練,只憑著以傳統語言文史為內容訓練下的ChatGPT語言基本模型,這付予了中國的書生們,充足的思維和解決問題的通用能力,再接受在崗位上的訓練調整(Fine-tuning) 後,不少人就能在東西對抗的時代中叱咤風雲。其實來自西方傳統教學的現代教學,也是以語言和數學為初級教學的重點,因為如前所述,語言和數學兩者都是語言,都是通用語言模型的訓練素材,有了語言的基礎就具備了思維和解決問題的能力,更能夠以此基礎再衍生出各種專門(專業)智能。可見,大腦和AI同為神經網絡,其中的原理是互通的。
現在把問題轉回到標題中的問題,在從今往後的AI年代,我們現行的基礎教育,也就是在語言上,從最基本背單詞造句寫文章的訓練,與在數學上,練心算、訓練四則運算的算術訓練,還再有没有必要花時間投放資源嗎?當了解過ChatGPT的智能是如何練成的過程後,我們心中是否已有了答案,答案是:不能捨棄。如果我們要求大腦積累智能 – 思維能力、解決問題能力的話,我們就不能捨棄基礎教育訓練,但方法可以改良。或許今天,Khan Academy結合AI的使用,讓問答智能(機器人)陪伴學員一起學習,成為學員的1對1 導師(陪練),這種方法為學員打造出較個性化的循序漸進教學,逹到了真正的因材施教目的。筆者相信,這只是其中一條出路,在從今往後的AI年代中,只要我們不放棄最根本的基礎(放棄是自絕之路),我們還可以有更多更好的出路。