OpenAI推出GPT-4
肖颯
不得不重視的法律問題
颯姐團隊之前也寫過大量GPT模型合規(guī)的內(nèi)容,,在這里做一個總結(jié)。
1,、生產(chǎn)出來的“作品”著作權到底是誰的,?
根據(jù)我國《著作權法》第11條規(guī)定,,作品歸屬于自然人、法人,、非法人組織,。換言之,在我國,,只有自然人,、法人可以成為著作權的主體,ChatGPT首先不是我國法律意義上的適格主體,,因此不能成為真正意義以上的作者,。另外,AI或ChatGPT產(chǎn)出的文本,,是否是我國著作法意義上的“作品”也存在爭議,。但必須提及的是,2019年12月我國出現(xiàn)了首例認定人工智能產(chǎn)出文本為“作品”的判例(深圳南山區(qū)法院),,但在全國范圍內(nèi)多數(shù)法院包括北京知識產(chǎn)權法院還是堅持嚴格解釋法條,,而非認定機器AI成為作者。
2,、利用ChatGPT生成的內(nèi)容是否需要與活人寫的內(nèi)容區(qū)別開,?如何應對ChatGPT制造的“假新聞”和“謠言”?
首先,,根據(jù)《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》,,深度合成的信息內(nèi)容須添加顯著標識,,防止公眾混淆誤認,,AIGC內(nèi)容與真人內(nèi)容是需要做好區(qū)分的。針對假新聞和謠言等問題,,2023年1月10日正式實施的《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》,,要求深度合成提供者和使用者,不得制作,、復制,、發(fā)布、傳播虛假新聞消息,,轉(zhuǎn)載給予深度合成服務制作發(fā)布的新聞消息的,,應當依法轉(zhuǎn)載互聯(lián)網(wǎng)新聞信息源單位發(fā)布的新聞信息。
颯姐團隊提示:服務提供者應當加強深度合成內(nèi)容管理,,采取技術或者人工方式對輸入數(shù)據(jù)和合成結(jié)果進行審核,,建立健全用于識別違法和不良信息的特征庫,應當建立健全辟謠機制,。
3,、如果用于AI訓練的數(shù)據(jù)如果來源不合法,是否有法律風險?
我們必須明確一個前提:用于AI訓練的數(shù)據(jù)必須是合法取得的,。在個人信息采集方面,,必須經(jīng)被采集人的知情同意,不能非法采集數(shù)據(jù),,需要遵循“個保法”規(guī)定和配套標準,。在其他數(shù)據(jù)方面,需要取得權利人的同意或授權,,例如將他人具有著作權的作品用于數(shù)據(jù)訓練,,需要在事前取得其授權,除非是已經(jīng)經(jīng)過著作權保護期或由于其他原因(CC授權等)而進入公共領域的作品,,否則不能直接使用,。同時,服務提供者和技術支持者應當加強訓練數(shù)據(jù)管理,,采取必要措施保障訓練數(shù)據(jù)安全,,防止數(shù)據(jù)泄露。
隱隱
根據(jù)OpenAI公布的信息,,GPT4相比上一代有了飛躍性的提升,,擁有強化版的推理能力,能夠生成與編輯創(chuàng)新型與技術性的文字內(nèi)容,,并且在圖像處理執(zhí)行任務上幾乎一步到位,,一瞬間替百度們有點絕望了,在可用數(shù)據(jù)的數(shù)量和質(zhì)量尚且欠缺的情況下,,不知道怎么跟人家打,。
關于比人類表現(xiàn)得更好的這一點,可能不少人會質(zhì)疑,,chatGPT只是依靠過往信息的獲取整合輸出,,它并沒有創(chuàng)造性的思辨能力,但個人認為,,某些時候,,人類忽略了自身看似感性的認知、創(chuàng)造的表達也建立在過往經(jīng)歷和信息的獲取,,盡管不同的人有其特異性,,但從群體的視角,有時候卻呈現(xiàn)高度的趨同,。從OpenAI“更少地談論禁忌話題”的表態(tài)中,,也說明這一智能工具的邊界,正在被背后的開發(fā)者小心翼翼地釋放,。未來或許會產(chǎn)生更多難以令人分辨的不實信息,,以及加速重復性工作崗位的替代,。
陳守華
GPT-5也會在不久的將來推出,,人工智能已經(jīng)進入指數(shù)級發(fā)展階段。
格隆匯
NB,!對不起,,實在沒忍住說出這兩個字。
ChatGPT(GPT-3.5)引爆科技圈后,,所有人都在討論,,AI下一步會往哪個方向發(fā)展。
上一次有這種感覺,,還是初代iPhone發(fā)布的時候,。
我們并沒有等太久。
隔夜,,OpenAI正式推出新品GPT-4,,再次點燃了大家的想象力。
老板Sam Altman直接開門見山地介紹:
這是我們迄今為止功能最強大的模型,!
有多強,?
就像不少人感嘆的:如果GPT-3.5尚屬意料之中,GPT-4則讓我自愧不如,。
這一波,,真是科幻照進現(xiàn)實了。
01
偉大變革的前奏
怎么證明一個人比另一個人水平高,?
現(xiàn)實社會中,,主要手段是考試、拿證,。
所以,,想讓大部分人直觀地感受到,,新AI模型比舊的牛逼,,同樣是考試。
OpenAI用GPT-4參加了多項美國通用考試,,成績很驚艷:
在SAT數(shù)學和閱讀考試中,,GPT-4比GPT-3.5高150分;
它還能通過律師模擬考試,,得分排在應試者前10%,,而震撼全球的GPT-3.5只能排在倒數(shù)10%……
隨后,在YouTube上進行的Live Demo中,,OpenAI展示了GPT-4的真正實力:總結(jié)文章,、寫代碼,、報稅、寫詩……GPT-3.5做不到的,,GPT-4輕松拿下,。
而且,還不僅僅是這樣,。
根據(jù)OpenAI官網(wǎng)描述,,相較于GPT3.5,GPT-4最大的進化在于:“多模態(tài)”和長內(nèi)容生成,。
其中的關鍵,,就是多模態(tài)這個詞,顧名思義,,就是不同類型數(shù)據(jù)的融合,。
目前GPT-4最大的突破,就是擁有了“讀圖能力”,。
用戶可以直接用圖片提問,,它能夠在讀懂圖片內(nèi)容的基礎上,給出有邏輯的回答,。
有個形象的例子,。
下面這個人用筆在本子上畫了個網(wǎng)站的草圖,然后用手機拍下來,,發(fā)送給GPT-4,。
10秒鐘后,它不僅識別出圖片的含義,,還生成了要建立這個網(wǎng)站的代碼,。
“您好,您的網(wǎng)站建好了,?!?br />
這個事件中,最核心的點并不在于編程,、計算和分析能力,,而是它能準確理解圖片的含義,并給出解答,,甚至是圖片解答,。
這就比GPT-3.5高出一個世代了。
兩者的表現(xiàn)力根本不是一個級別的,。我們可以理解為,,在純文字的年代,照相機的出現(xiàn),,對信息交流產(chǎn)生了多大的促進作用,。
這就是AI進化史上類似的事件,。
甚至,這也只是表象,。更讓我震驚加一點恐懼的,,是GPT-4具備的的初步邏輯思維能力。
正如OpenAI在今天的博文中所說:
我們創(chuàng)建了GPT-4,,這是 OpenAI 努力擴展深度學習的最新里程碑,。雖然在許多現(xiàn)實世界場景中的能力不如人類,但在各種專業(yè)和學術基準上表現(xiàn)出人類水平,。
在OpenAI提供的一個示例中,,GPT-4準確地回答了幾個網(wǎng)絡meme為什么搞笑的問題,雖然解釋得并不好笑,。
GPT-4還學會簡單的邏輯推理了,。比如你問,圖片里的繩子剪斷會發(fā)生什么,。它答,,氣球會飛走。
它甚至可以講出一些質(zhì)量不咋地,、模式化的冷笑話,。雖然并不好笑,但至少,,它已經(jīng)開始理解“幽默”這一人類特質(zhì),。
這兩件小事看起來挺弱智的,卻是AI向人類思維慢慢進化的標志,。
就像古猿人第一次學會直立行走,,石器時代的原始人第一次思考人與自然的關系。
微觀角度看,,這沒什么大不了的,。但拉長時間線,以后人的眼光看,,這也許正是偉大變革的前奏曲,。
就像我們研究原始人走路一樣。
當然,,GPT-4依然有局限性,。
首先,,它的知識范疇也存在時間限制,,截止于 2021 年 9 月。
其次,,AI畢竟是AI,,OpenAI也表示目前GPT-4并不完美,,它在很多場景下的能力都不如人類。
據(jù)稱,,該模型仍然存在“幻覺”或編造事實的問題,,并且在事實方面也不一定總是可靠的,“它傾向于堅持認為它是正確的,,即使它錯了”,。
OpenAI表示,GPT-4正在努力解決其局限性,,例如社會偏見,、幻覺和對抗性提示。
但盡管如此,,沒人能否認,,GPT非常有潛力。
世界上任何事,,最難的永遠不是做不到,,而是想不到。
只要有個雛形,,哪怕很low,、很簡陋,距離做好就不會很遠了,。
OpenAI做出ChatGPT,,最大的意義是是向大家證明,這種應用是存在的,,這種技術是可行的,。這件事,不是干不成的,。
就好像多年前,,大家都在空談概念的時候,只有特斯拉先做出了成品,。
02
成功絕非偶然
一個恐怖的事實:GPT-4早在去年8月就訓練完成了,。
之所以現(xiàn)在才面市,是OpenAI需要花6個月時間,,讓它變得更安全,。
這就不得不讓人浮想聯(lián)翩。
會不會已經(jīng)有GPT-5,、GPT-6了,,它們到底是什么樣子?是否已經(jīng)成長為無法掌控的巨獸,?
OpenAI的內(nèi)部技術,,到底領先外界多少年,?
巨大的壓力給到全世界。
自ChatGPT發(fā)布以來,,國內(nèi)外眾多科技公司對AIGC技術的追捧已達到空前絕后的熱度了,。
Chat GPT剛剛發(fā)布,百度便立即官宣了大模型新項目“文心一言”(ERNIE Bot),,將在明天和大家見面,。
在此后很短的一段時間內(nèi),阿里,、京東,、騰訊、字節(jié)跳動,、360等多家互聯(lián)網(wǎng)及IT企業(yè)紛紛表示對AIGC技術發(fā)展的關注和跟進,,并同步提出了一些相關計劃。
種種跡象表明,,從科技巨頭到行業(yè)龍頭,,中國企業(yè)已紛紛進入AIGC賽道競逐。
但是,,這塊蛋糕,,并不好吃。
GPT-4是人工智能生成內(nèi)容——AIGC技術最新進展的代表,。
所謂AIGC,,是繼專業(yè)生成內(nèi)容(PGC)、職業(yè)生成內(nèi)容(OGC),、用戶生成內(nèi)容(UGC)后,,互聯(lián)網(wǎng)內(nèi)容生成的第四個階段——神經(jīng)網(wǎng)絡深度學習。
這的確是人類科技史上翻天覆地的革命,。
GPT-3.5和GPT-4,,之所以能生成文字、代碼,、語音,、圖片、視頻,,完成語言翻譯,、文案撰寫、腳本編程,,是因為OpenAI對數(shù)據(jù),、算力、算法等關鍵要素進行了幾個世代的升級。
先說數(shù)據(jù),。
僅GPT-3.5的訓練參數(shù),,就達到1750億個以上,。
想要把如此海量的數(shù)據(jù)被反復投喂給AI模型,,單次訓練成本就高達460萬美元,。
如果不是先有馬斯克,、后有微軟的支持,OpenAI是不可能耗費得起的,。
再說算力,。
2012-2018年,全球AI算力需求增長約為30萬倍,,這個數(shù)字已經(jīng)很恐怖了,。
但從2018年起,隨著Google Duplex,、Open AI Five以及新華社全球第一個“AI合成主播”上崗,人工智能技術開始加速落地,。尤其是今年,稱得上是爆發(fā)之年,。
按照現(xiàn)在的進度,根據(jù)預測,,AI所需算力每100天將翻一倍。
也就是說,,到2030年,AI所需算力是現(xiàn)在的3200萬倍,。(2的25次方)
顯然,,如果不在軟件服務、硬件支撐,、芯片技術等方面協(xié)同創(chuàng)新,,我們的算力水平不可能實現(xiàn)指數(shù)級別的增長。
GPT-4的訓練是在微軟云上進行的,。而在全球云計算市場,,微軟云排名第二,,再加上芯片技術的高速發(fā)展,這些都為ChatGPT的橫空出世奠定了堅實的算力基礎,。
最后說算法。
相比傳統(tǒng)的AI算法,,GPT的優(yōu)勢在于,通過海量參數(shù),,進一步提升模型的精確度,。
初代GPT模型的參數(shù)是1.17億個;GPT-2事15億個,,增加了10倍,;GPT-3達到1750億,,是GPT-2的 100 倍,;而GPT-4的真實參數(shù)在1750億-2800億之間,,并沒有比GPT-3高出太多,,其重點在數(shù)據(jù)處理優(yōu)化上,。
這種大模型算法的實現(xiàn),必須有高效率的算法框架來支撐,,因為參數(shù)量上去之后,需要把模型和數(shù)據(jù)分散放到多個GPU卡上,,卡之間如何通信,、調(diào)度,如何進行高效的反向傳播,,都需要大量高水平技術人才來推進和實施。
GPT之所以獨特,,就是在目前世界上最強大的LLM(大語言模型)為基礎的同時,,引入了基于人類反饋的強化學習方法,,從而提高了對話的質(zhì)量,,而升級到多模態(tài)預訓練大模型GPT-4版本后,,其對話質(zhì)量變得更加強大、完美,。(具體可閱讀《ChatGPT的兩宗罪》)
同時也能看到,GPT-4之所以比GPT3.5強得有限,,可能就是算法的效率達到瓶頸了。
GPT-5,,可能沒有我們想象的那么快到來,。
綜上,,可以看出,,ChatGPT是靠強大算力和高成本,用大規(guī)模的數(shù)據(jù)“喂”出來的AI模型,,它的出圈看似是偶然的,但其成功卻絕非偶然,。
其他公司想要復制一款ChatGPT,,絕非隨便設計個對話模型就完事。
事實上,,國內(nèi)AI領域真正缺乏的是技術積累,,包括數(shù)據(jù)的清洗和標注,、模型的結(jié)構設計,,以及怎么訓練,、推理等,,這些技術很多都需要經(jīng)驗和積累,,需要大量的科研人才和普通技術人員一步一個腳印走出來,。
這方面,,目前大公司更有優(yōu)勢,。
比如百度,,之所以能盡快推出“文心一言”,就是因為其十年多來累計投入了超過1000億元的技術研發(fā)經(jīng)費,。
而小公司,不僅承擔不起高昂的成本,,也沒有前期的技術研發(fā)沉淀,。跟風入局,,雖然在股市里有一時的風光,利用時間差賺一些塊錢,。
但長遠來看,,終究會被市場淘汰,。
當然,,并不是說小公司完全沒有機會,若能真正腳踏實地做好AIGC相關的一個細分板塊,,依然有機會跑出來,。
愿國內(nèi)科技公司在追趕世界前沿科技的同時,少一些嬌嬈炒作,,少一些急功近利,多一些創(chuàng)新實干,,多一些厚積薄發(fā),。
03
尾聲
今天有個熱搜挺有意思的。
說是《?;ǖ馁N身高手》水了一萬多章,十多年還沒完結(jié),,被讀者舉報了。
看得人一臉懵逼,,這不是剛上高中時躲被窩里看的么,。作者魚人二代,,當年還挺火的,,《極品修真強少》,、《很純很曖昧》都是青春期難忘的回憶,。
印象中,,這部小說早就被翻拍成電視劇,,下意識便以為完本了,。
其實想想也正常,,追了一萬多章的書,?;ǘ汲砂⒁塘耍兄鬟€是個雛兒,,讀者當然生氣……
還有另一種說法。
平臺和簽約作者有協(xié)議,,只要小說不斷更,,每個月就有幾萬元固定收入,。所以本該完本的小說,,作者又找了個代筆,,磨磨唧唧水了近十年,。
這波啊,,是反向薅資本家羊毛,,堪稱吾輩楷模。
平臺被薅得受不了了,,于是自己找人偷偷舉報,。
聯(lián)想一下。
當ChatGPT,、“文心一言”在國內(nèi)普及后,,如果過氣的老牌作者人手一個,天天水字數(shù),,能白嫖多少稿費,?
想想就流口水啊。
對已經(jīng)功成名就的部分網(wǎng)文作者而言,,AI的普及,,大概率是件好事。
但對其他人,,不一定如此了,。
根據(jù)上文,總的來說,,GPT-4 的已經(jīng)證明了,,它有能力在很多領域,,呈現(xiàn)出超越人類的表現(xiàn),。
甚至有傳言稱,GPT-4通過了“圖靈測試”,,在邏輯能力上與絕大部分人類已經(jīng)無異。
現(xiàn)在唯一的門檻,,就是成本問題了。
一旦算力,、算法,、數(shù)據(jù)得到突破性進展,成本降下來了,,就真的會對一些產(chǎn)業(yè)形成沖擊。
說不定吃著火鍋唱著歌,,突然就被 AI 把命給革了,。
當然,,我還是那個觀點:快點學,,快點用,。
AI畢竟是工具,,是被人奴役的對象,。
即使將來淘汰一部分人,,也是先淘汰那些不會使用先進工具的人。
我愛這個魔幻的世界,。(全文完)
蘭香
預測一下:知識傳播類的頭部,,也包括各類型的教師,,用自己的數(shù)字人+ ChatGPT 不斷迭代構建的自我知識庫,同時給幾十萬人上課的場景會是多么震撼,? 亦或?qū)W生們直接用各種訓練好的AI工具自我學習,學習模式將會有什么改變,? 最簡單的學習路徑不就是一問一答嗎,?
再進一步,感覺所有不需要跑腿功能的個人助理和純耍嘴皮子的片兒湯會議愛好者都得下崗……
?當然,,等波士頓動力和科大訊飛加入戰(zhàn)團后,,可能除了資本家之外,幾乎所有人都得下崗……
?再當然,,可能最后人類也都得下崗……