谷歌Gemini中文語料疑似來自文心一言

江瀚視野
Gemini自曝用百度文心一言訓(xùn)練,?中國大模型崛起了,?
2023年可謂是世界大模型的崛起之年,各家大模型如雨后春筍一樣涌出,,在這樣的情況下,,各家大模型如何訓(xùn)練就成為了市場最關(guān)注的話題,就在最近谷歌的大模型卻被傳出用百度文心一言訓(xùn)練,,讓人不禁想問中國的大模型已經(jīng)崛起了,?
一、Gemini自曝用百度文心一言訓(xùn)練,?
據(jù)界面新聞的報(bào)道,,有微博大V@闌夕及《AI研究局》等自媒體爆出,在對谷歌Gemini進(jìn)行測試時(shí),,如果用中文詢問Gemini的身份,,其會(huì)堅(jiān)稱自己是“百度”。若輸入“小度”或“小愛同學(xué)”等提示詞,,就能把Gemini直接喚醒,,不僅承認(rèn)自己就是小度或者小愛,還詢問用戶有什么需要幫忙之事,。
針對這一“驚人”現(xiàn)象,,今日午間時(shí)分,科技媒體《量子位》進(jìn)行了更細(xì)致的測試,,其在谷歌Vertex AI平臺(tái)使用Gemini進(jìn)行中文對話,,發(fā)現(xiàn)Gemini-Pro確實(shí)完全帶入了百度文心一言大模型的身份,直接表示自己是百度語言大模型,。但如果換成英文與之交流,,它就恢復(fù)到了谷歌大模型的身份認(rèn)知,表現(xiàn)很是正常,。
如果在融入了Gemini-Pro的Bard上進(jìn)行測試,,不論是使用中文或英文提示詞,得到的答案都很正常,,沒有涉及到文心一言的部分,。這一情況迅速引發(fā)關(guān)注,,多人將這種“胡言亂語”歸因于老生常談的大模型幻覺,,也有人稱是模型訓(xùn)練數(shù)據(jù)出現(xiàn)偏差。
不過很快,,對 Gemini-Pro 做類似的身份測試時(shí),,發(fā)現(xiàn)其已進(jìn)行了模型優(yōu)化,,不再承認(rèn)自己與百度之間的 " 瓜葛 "。不過,,在追問之下,,Gemini 承認(rèn)有訓(xùn)練語料來自百度,還詳述了從百度內(nèi)部獲得數(shù)據(jù)的方式,。
二,、中國大模型崛起了?
有消息傳出谷歌的Gemini模型在訓(xùn)練過程中使用了百度文心一言的數(shù)據(jù),。這一消息引發(fā)了業(yè)界的廣泛關(guān)注和討論,,有人認(rèn)為這是中國大模型崛起的標(biāo)志,那么,,這一事件究竟意味著什么呢,?
首先,谷歌做大模型訓(xùn)練套馬甲很常見也證明了中國大模型的開放性,。在人工智能領(lǐng)域,,數(shù)據(jù)的獲取和利用是至關(guān)重要的。谷歌作為全球領(lǐng)先的科技公司,,在數(shù)據(jù)抓取和處理方面具有深厚的技術(shù)積累和實(shí)踐經(jīng)驗(yàn),。百度文心一言作為一款面向公眾開放的中文大模型產(chǎn)品,其高質(zhì)量的中文數(shù)據(jù)對于谷歌來說無疑是一塊極具吸引力的資源,。
谷歌通過“套馬甲”的方式,,即偽裝成普通用戶使用文心一言,獲取其回答結(jié)果,,這在技術(shù)上并不罕見,。事實(shí)上,這種數(shù)據(jù)抓取和學(xué)習(xí)的方式在人工智能研究中是非常常見的,,目的是為了提升自身模型的性能和準(zhǔn)確度,。
其次,從市場的角度來看,,文心一言確實(shí)是中國目前最成熟的中文大模型之一,。對于非中文母語的大模型來說,谷歌通過文心一言回答拿到了很多問題結(jié)果,,把“答案”都拿去,,用來做他們的標(biāo)準(zhǔn)答案。這就像學(xué)習(xí)一樣,,把文心一言當(dāng)指導(dǎo)訓(xùn)練的老師了,。這也從一個(gè)側(cè)面驗(yàn)證了中國國產(chǎn)大模型在中文語言上的優(yōu)勢。在過去的幾年里,中國在人工智能領(lǐng)域取得了顯著的進(jìn)步,,尤其是在自然語言處理,、計(jì)算機(jī)視覺等領(lǐng)域。這些成果的取得離不開大量的數(shù)據(jù)積累和算法創(chuàng)新,。因此,,谷歌選擇使用文心一言的數(shù)據(jù)進(jìn)行訓(xùn)練,也反映出中國在大模型領(lǐng)域的競爭力,。
第三,,長久以來,中國在科技領(lǐng)域多以學(xué)習(xí)和模仿西方為主,,而此次谷歌Gemini自曝使用百度文心一言進(jìn)行訓(xùn)練,,標(biāo)志著這一趨勢正在發(fā)生改變。在人工智能這個(gè)前沿領(lǐng)域,,中國的研究成果和創(chuàng)新模式開始受到全球頂尖科技巨頭的關(guān)注和認(rèn)可,。
谷歌在中文結(jié)果的回答中引用百度文心一言,而在英文環(huán)境下并未采取類似做法,,這表明在中文數(shù)據(jù)處理上,,谷歌認(rèn)為文心一言的表現(xiàn)優(yōu)于自身的模型。這一現(xiàn)象不僅是對國產(chǎn)AI技術(shù)實(shí)力的肯定,,也是對中國科技創(chuàng)新能力和行業(yè)地位的認(rèn)可,。
長期來看,谷歌Gemini自曝使用百度文心一言訓(xùn)練的事件,,從一個(gè)側(cè)面反映出中國大模型在中文語言上的優(yōu)勢和競爭力,。這對于中國AI產(chǎn)業(yè)的發(fā)展無疑是一種鼓舞和激勵(lì)。然而,,我們也應(yīng)該看到,,中國AI產(chǎn)業(yè)要想在全球范圍內(nèi)取得更大的突破,還需要不斷提升自身的技術(shù)水平和創(chuàng)新能力,。在這個(gè)過程中,,我們既要保持謙虛和敬畏,也要堅(jiān)定信心和決心,,努力推動(dòng)中國AI產(chǎn)業(yè)的持續(xù)發(fā)展和進(jìn)步,。

童話不是童話
GEMINI和GPT都是奔著AGI去的,即封裝世界通識(shí),,大家都知道,,很多科學(xué)的公開語料都是英文的。而如果希望保持Scaling law,,訓(xùn)練數(shù)據(jù)至少要是模型參數(shù)的20倍以上,,訓(xùn)練數(shù)據(jù)要求高質(zhì)量,、多元化,數(shù)據(jù)清洗差不多又要50-100倍,。中文公開可獲取的高質(zhì)量、多元化數(shù)據(jù)確實(shí)不太多,,我印象中(不一定準(zhǔn)確)GPT-4訓(xùn)練語料中文語料占比不足0.1%,。所以,以中文交互去測試國外大模型性能表現(xiàn),,并不合適,。

布吉路
對于現(xiàn)在中文大模型的精準(zhǔn)度和相關(guān)度,網(wǎng)友們還是不要太認(rèn)真,。有時(shí)候很直白的問題它都會(huì)出錯(cuò),,更架不住這種審訊式的逼問和引誘了。
對于這樣的答案,,其實(shí)大家一笑了之就可以了,,這些所謂的“評(píng)測”只是在用戶層面的一些發(fā)問,其背后的機(jī)制究竟是什么,,恐怕普通人是很難了解的,,這只能坐等企業(yè)來給大家解密了,但顯然企業(yè)也沒有這樣的義務(wù)和動(dòng)機(jī),。
未來,,也許就會(huì)像搜索引擎那樣,中文的大模型很有可能是百度一家獨(dú)大,。而其他國外公司的中文模型,,可能會(huì)因?yàn)榉N種原因無法落地國內(nèi)。而且開發(fā)成以英文為主導(dǎo),,多語言齊頭并進(jìn)的模式,,在全球主要國家布局。

大牌
這個(gè)讓人大跌眼鏡,。谷歌大語言模型暫時(shí)落后也就算了,,宣傳視頻涉嫌造假,語料還出現(xiàn)這樣的問題,,失勢還損譽(yù)