第064章 用科學(xué)方法解讀紅樓夢
《盤點歷史十大偽作(1)》一出,頓時引起了無數(shù)網(wǎng)友的關(guān)注。
東門慶工作室。
“慶哥,三無出山了?”
“啊?他不是不再盤點詩詞工作了么?出爾反爾?又出來盤點詩詞了?”
“沒,他這次盤點了歷史上的偽作,說《紅樓夢》是偽作?!?p> “啥?臥槽??!準備文稿,以前咱們一直是歌頌他的,這次準備開噴吧!爭取做出全網(wǎng)第一條批判他的短視頻!”
……
片場。
宋喬蕓正坐在椅子上休息,身邊的化妝師在補妝。
滴!
【抖樂提示:您關(guān)注的短視頻博主發(fā)布了最新作品。】
她連忙打開手機,見到印入眼簾的一行字后,整個人瞬間坐直了。
“這……”
“完了,歪了歪了歪了!”化妝師忙道。
宋喬蕓沉吟道:“三無的觀點,未必是歪的。”
“我是說口紅給您畫歪了。”
……
富旦大學(xué)。
張教授正在和同事們暢聊歷史。
突然有人匆匆跑來:“張主任,我萬萬沒想到,您口中的那個朋友,竟然是三無老師!”
張教授一臉茫然:“什么東西?”
“您朋友啊,您不是說您有個朋友嘛,我做夢都不敢想,您口中的那個提出了《后出師表》偽作言論的朋友,竟然是詩人三無!張主任,您也太低調(diào)了吧,認識三無都不跟我們說?”
張教授很茫然:“啥意思,我不懂你啥意思。”
“您還裝!這不嘛,您朋友三無老師,剛剛發(fā)布了一條短視頻,您看啊,這上面不是寫著呢么,《盤點歷史十大偽作(1)》,《紅樓夢》,他前幾天不是還說《后出師表》是偽作嘛!您可千萬別告訴我,這是兩個研究者碰巧想到一塊去了,都研究同一個方向了?!?p> 張教授腦袋“嗡”地一聲,他突然意識到了什么,但又完全不敢相信。
他一把抓過手機,因為激動手都是抖的,只見屏幕上徐徐展示出一段內(nèi)容,然后他整個人,徹底懵住了。
……
無數(shù)雙眼睛在不同時間盯著同樣的內(nèi)容,有著同樣的震顫,這是一個挑戰(zhàn)了所有人固有認知的短視頻!
短視頻在緩緩播放著內(nèi)容。
三無極具特色的嗓音,舒緩平和,娓娓道來。
【我將《紅樓夢》分為兩部分,第一部分:前80回,第二部分,后40回。
在經(jīng)過我縝密而繁復(fù)的研究工作后,我發(fā)現(xiàn)了一個驚天的秘密——《紅樓夢》后四十回,其作者并不是曹雪芹,而是由后人續(xù)寫,狗尾續(xù)貂之作?!?p> 抖樂最近學(xué)習(xí)了其他短視頻網(wǎng)站,開通了彈幕功能。
此時滿屏幕的彈幕全是問號。
“???”
“啊???”
“三無,請回去寫你的詩詞吧,別在這逗我好么?”
“這不扯淡呢么?”
“現(xiàn)在的自媒體,為了流量真是啥瞎話都敢編啊!”
……
視頻內(nèi)容繼續(xù):
【接下來的一段時間里,我將分若干集,從各個角度出發(fā),來論證《紅樓夢》后四十回并不是曹雪芹手筆。
而本集視頻,我們先從文本特征差異研究開始。我將運用統(tǒng)計學(xué)方法,并結(jié)合 R語言技術(shù),對我的觀點進行闡述!】
彈幕上,網(wǎng)友們又蒙圈了。
“R語言技術(shù)?統(tǒng)計學(xué)?跟《紅樓夢》有什么關(guān)系?”
“什么是R語言?”
“這不是文學(xué)方面的事情么?怎么涉及到數(shù)學(xué)和計算機技術(shù)了呢?”
“對啊,文學(xué)就是文學(xué),怎么能和其他學(xué)科混為一談呢,一看就不靠譜!”
“繼續(xù)圍觀,看這個詩人能扯出什么花樣來?!?p> ……
【在大量事件的前提下,無論是在語言表述,還是在寫作中,每個人在特定情況下用字或是用詞都存在著某種規(guī)律。
這種規(guī)律便是個人在說話與寫作中所形成的語言表達習(xí)慣,即是個人在其特定習(xí)慣中所形成特有的文體特征。
所以,不同的作者在用詞頻率與用詞風(fēng)格上存在一定的差異性。
我將運用R語言對《紅樓夢》著作進行文本分詞和詞頻統(tǒng)計,從高頻詞匯和虛字兩個研究角度,來分析《紅樓夢》前八十回與后四十回在文本特征上的差異性。
首先,我們率先研究高頻詞匯。
在《紅樓夢》的高頻詞匯中,我首先將人名、地名、稱謂等剔除掉,以及對“一個”“一面”等表數(shù)量的沒有實際意義的詞匯進行剔除。
于是,我們得到了65個高頻詞匯進行文本研究,現(xiàn)制作統(tǒng)計表格。
如下圖!】
短視頻中,貼出一張統(tǒng)計表。
【高頻詞匯研究對象表】
【1,什么;2,我們;3,那里;4,姑娘;5,你們……63,家里;64這話;65到底。】
短視頻解讀繼續(xù):
【……我的研究分組方案如下,一至三十回第一組,十六至四十五回第二組,三十一至六十回第三組……,以此類推,一共將《紅樓夢》分成7組。
運用R語言,對各組進行分詞,對高頻詞匯研究對象進行詞頻統(tǒng)計。繪制高頻詞匯頻數(shù)變化折線圖。
如下圖所示!】
話音落,短視頻里,貼出了運用R語言繪制出的高頻詞匯頻數(shù)變化折線圖——一個帶有X、Y坐標的七條折線的統(tǒng)計表。
而此時,網(wǎng)友們?nèi)瓷盗恕?p> “懵逼了,這些都啥意思?。俊?p> “這能代表啥啊,根本看不懂??!”
“詩人你到底啥意思,請你明說行么?”
“我感覺看了你的視頻,受到了侮辱!”
“你高估我們了!”
……
短視頻開始對這一折線圖進行講解:
【我們可以發(fā)現(xiàn)折線圖有明顯的鋸齒形,那么就表明高頻詞匯在各分組有明顯的波動……諸如 16(沒有)、21(聽見)、26(回來)、34(心里)、51(那些)、65(到底)等詞匯,當(dāng)?shù)诹M和第七組出現(xiàn)波峰的時候,其他組卻出現(xiàn)了波谷;
而在42(不過)、61(姊妹)等詞匯,當(dāng)?shù)诹M和第七組出現(xiàn)波谷的時候,其他組卻出現(xiàn)了波峰;這就說明第六組和第七組的折線圖與其他組的折線圖有明顯的相反的走勢……】
彈幕瘋狂抗議:
“求你了別說了,聽不懂啊,能直接告訴我結(jié)論么?”
“你讓數(shù)學(xué)常年不及格的我,如何理解你的高深莫測?”
“直接說結(jié)論吧,真聽不懂!”
……
【從部分高頻詞匯角度分析,前八十回和后四十回詞頻有較顯著的差異性,于是我得出初步結(jié)論,前八十回和后四十回,作者并不是同一個人。
完成了高頻詞匯的分析后,下面,我們對虛字進行分析。
虛字,是指不能單獨成句,意義比較抽象,而具有一定語法意義的字或詞。古典小說中的虛字是構(gòu)成句子必不可少的成分,其使用不受故事情節(jié)的制約,僅與作者的寫作習(xí)慣有關(guān)。
……
我們對44個虛字作為研究對象, 44個虛字如下:之、其、或、亦、方、于……偏、兒。
在研究之前,首先我對監(jiān)督學(xué)習(xí)作簡單介紹,監(jiān)督學(xué)習(xí)分為回歸分析與分類分析兩大類別,本文應(yīng)用了分類分析。所謂分類是通過分析已知數(shù)據(jù),構(gòu)造一個分類函數(shù)或者分類模型(即分類器),利用該模型將數(shù)據(jù)庫中數(shù)據(jù)映射到某一給定類別中……
接下來,我將運用監(jiān)督學(xué)習(xí)中的樸素貝葉斯法和BP神經(jīng)網(wǎng)絡(luò)對紅樓夢各回作分類研究,并根據(jù)分類準確度分析前八十回和后四十回的差異性!】
富旦大學(xué)。
張教授身邊,人越聚越多。
“他說的這是啥???”
“我怎么全程都聽不懂?”
“什么是樸素貝葉斯法?是數(shù)學(xué)么?”
“BP神經(jīng)網(wǎng)絡(luò)啥意思?生物學(xué)?還是計算機?”
“這確定是,在考證《紅樓夢》后四十回是偽作么?”
“張教授,你能看懂他說的是啥么?”
“張教授?”
在場的所有教授都傻了,全都看不懂啊。
什么樸素貝葉斯法,什么BP神經(jīng)網(wǎng)絡(luò),又什么折線圖啊,這些文學(xué)方面的大教授們,哪懂這些?
用數(shù)學(xué)、計算機技術(shù)等,去研究文史問題,他們聞所未聞啊。
雖然這樣的研究在前世已經(jīng)是常規(guī)手段,但是這一世的人們哪見過這個?
對于這一世的所有網(wǎng)友來說,對于這些大教授來說,現(xiàn)在已經(jīng)不是震不震驚的問題了,也不是吐不吐槽的問題了。而是,完全看不懂的問題!
完全看不懂??!
想吐槽幾句,想罵幾句,都不知道從何開口!
張教授傻了。
視頻里講解的內(nèi)容,他聽不懂,傻了!
江小白就是三無的這個真相,他更接受不了,更傻了!
他一時間怔在原地,他的認知上,從來都沒受到過如此重大的沖擊。
……
“臥槽,他怎么還列上數(shù)學(xué)式子了呢?”
眾教授連忙再次望向手機屏幕!
【設(shè)有m個輸入變量 x ={X?,X?,…,Xm},有n個可能取值分類型變量 y ={y?,y?,…,yn},則根據(jù)貝葉斯定理有: P( y = y0|x?,x?,…,Xm)= P( x?,x?,…,Xm……
根據(jù)最大后驗概率原則,輸出變量應(yīng)預(yù)測n個后驗概率中最大的概率值對應(yīng)的類別。
……
首先將前八十回標記為類別1,將后四十回標記為類別2,進行樸素貝葉斯分類估計。
……
由表可知,準確率最小值為0.76000,而最大準確率達1(對測試集分類百分之百正確),平均準確率為0.91609。
假定兩種分類方式的準確率總體服從正態(tài)分布,因為樣本量為1000,屬于大樣本檢驗,因此采用z檢驗。建立假設(shè)并進行檢驗:
H0 :μ1 -μ2 ≤ 0
H1:μ1 -μ2 > 0
……
其中,xˉ1 = 0.91609 ,xˉ2 = 0.61587 ,s 2 1 = 0.00192 , s 2 2 = 0.00746 ……
既然p是極顯著大于p2的,那么就說明前八十回與后四十回的分類方式相比于任意一般的分類方式而言,類別之間的差異性更明顯,即前八十回和后四十回文本特征存在顯著的差異。
也就是說,從虛字角度分析,前80回和后40回,也不是同一作者的手筆。
因此,無論是從高頻詞匯分析,還是從虛字分析,通過科學(xué)方法研究后,我得出以下結(jié)論:《紅樓夢》前80回,和后40回,并不是出自同一人之手。】
彈幕上終于松了一口氣:
“終于完事了,腦袋里全是漿糊,懵了?。 ?p> “我剛剛究竟看了個啥?”
“全程懵逼中!”
“我突然想噴幾句話,但發(fā)現(xiàn)我完全不知道從何噴起。因為我啥啥都沒聽懂?。 ?p> “視頻還沒結(jié)束么?喲,才進行了三分之二?”
“還沒結(jié)束么?”
【下面,為了對我的研究成果進行驗證,我們引入BP神經(jīng)網(wǎng)絡(luò)。
所謂BP神經(jīng)網(wǎng)絡(luò)是一種利用誤差反向傳播算法的人工神經(jīng)網(wǎng)絡(luò),可以有效的解決很復(fù)雜的有大量互相相關(guān)的分類問題……】
彈幕,集體崩潰了。
“我靠,又來!”
“神啊,救救我吧?!?p> “請直接說結(jié)論??!”
“蒼了個天!”
……
【樸素貝葉斯分類器平均準確率為0.91677,方差為0.00201;而BP神經(jīng)網(wǎng)絡(luò)分類器平均準確率為0.93513,方差為0.00175。
因此,我的研究成果是沒有問題的。
綜上所述,從高頻詞匯角度研究,我運用各組高頻詞匯頻數(shù)變化折線圖。從虛字角度,用了樸素貝葉斯和BP神經(jīng)網(wǎng)絡(luò)分類方法,作了組內(nèi)與組間對照研究。
結(jié)果表明,】
視頻中,三無的語氣加重,嚴肅而肯定:
“《紅樓夢》前八十回與后四十回文本特征存在顯著的差異性,即前80回和后40回作者不是同一個人!】
短視頻播放完畢!
富旦大學(xué)辦公室內(nèi),圍觀的眾教授,一頭霧水!
此時此刻,他們和所有網(wǎng)友一樣,都沒看懂。
這個全程運用了統(tǒng)計學(xué)、計算機技術(shù)等科學(xué)手段進行文史研究的方法,對于這一世的人們來說,太超前了。
雖然在前世司空見慣,但是在這一世,所有人是聞所未聞,見所未見!
“三無關(guān)于《后出師表》的研究,我聽得明明白白的。但是這個我完全懵了?!?p> “我完全理解不了他剛剛的內(nèi)容,是對是錯,完全不明白??!”
“咱們先別談這個研究哈,張主任,你竟然認識三無,你也太厲害了吧?”
“張主任人脈是廣啊,竟然連三無都認識!”
“原來你的朋友,竟然是大名鼎鼎的三無,哇,你真的是神通廣大啊。”
“張主任,您干嘛去?”
“張主任?”
張主任突然轉(zhuǎn)身離去,一路小跑著奔向樓梯,同事的聲音早已來不及回答。
?。≒S:文中公式是錯的,因為正確的公式,字體識別不出來。貼上正確的公式,識別出來就這樣了,把開根號什么的都弄沒了。)