書生通用大模型
“書生通用大模型”是上海人工智能實(shí)驗(yàn)室、商湯科技商湯科技、香港中文大學(xué)和上海交通大學(xué)于2021年11月17日聯(lián)合發(fā)布的新一代通用視覺技術(shù)系統(tǒng)。該系統(tǒng)旨在系統(tǒng)解決人工智能視覺領(lǐng)域的任務(wù)通用化、場景通用化、數(shù)據(jù)高效化等一系列瓶頸問題。《書生》自2021年發(fā)布以來,經(jīng)過多次升級(jí),從國內(nèi)首個(gè)覆蓋各種視覺任務(wù)的通用大型模型,到包含視覺、語言和三個(gè)維度的大型模型體系。基于學(xué)者模型,上海人工智能實(shí)驗(yàn)室的聯(lián)合團(tuán)隊(duì)獲得了CVPR 2023年最佳論文獎(jiǎng),這是近40年來中國學(xué)術(shù)機(jī)構(gòu)首次簽署論文。
在2023世界人工智能大會(huì)全會(huì)上,“學(xué)者號(hào)”升級(jí)為“學(xué)者號(hào)通用大模型系統(tǒng)”,包括“學(xué)者號(hào)多模態(tài)”、“學(xué)者號(hào)普宇”和“學(xué)者號(hào)天際線”三個(gè)基礎(chǔ)模型,以及首個(gè)面向大模型開發(fā)應(yīng)用的全鏈條開源系統(tǒng)。此后,上海人工智能實(shí)驗(yàn)室聯(lián)合中國大模型語料庫數(shù)據(jù)聯(lián)盟成員單位,開源發(fā)布了“學(xué)者萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料庫。
發(fā)展歷史 編輯本段
2021年11月17日,上海人工智能實(shí)驗(yàn)室攜手商湯科技商湯科技、香港中文大學(xué)、上海交通大學(xué)共同發(fā)布了新一代通用視覺技術(shù)系統(tǒng)“書生通用大模型”,旨在系統(tǒng)解決人工智能視覺領(lǐng)域的任務(wù)通用化、場景通用化、數(shù)據(jù)高效化等一系列瓶頸問題。其技術(shù)報(bào)告《書生通用大模型:一種新的學(xué)習(xí)范式塔一般愿景》在arXiv平臺(tái)上發(fā)布。
2022年9月,在世界人工智能大會(huì)(WAIC)科學(xué)前沿全體會(huì)議期間,上海人工智能實(shí)驗(yàn)室發(fā)布了更通用的人工智能模型“學(xué)者2.0”。“學(xué)者2.0”的通用圖像模型基于動(dòng)態(tài)稀疏卷積網(wǎng)絡(luò),可根據(jù)不同的視覺任務(wù)自適應(yīng)調(diào)整卷積位置和組合方式,從而靈活、準(zhǔn)確地適應(yīng)不同的視覺任務(wù)。“學(xué)者2.0”積累了大量以中文為核心的翻譯數(shù)據(jù),提出了異步多分支訓(xùn)練技術(shù),構(gòu)建了以中文為核心的通用翻譯模型,支持161種語言。
2023年3月14日,商湯科技發(fā)布了多模態(tài)多任務(wù)通用大型模型“書生通用大模型(INTERN)2.5”。“學(xué)者2.5”擁有30億個(gè)參數(shù),通用可視化開源平臺(tái)OpenGVLab已開放“學(xué)者2.5”的多模態(tài)通用模型。
2023年6月7日,商湯科技、上海AI Lab聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)發(fā)布千億級(jí)參數(shù)化大語言模型“學(xué)者普語”(InternLM)。“學(xué)者普宇”擁有1040億個(gè)參數(shù),并在包含1.6萬億token的多語言高質(zhì)量數(shù)據(jù)集上進(jìn)行訓(xùn)練。綜合評(píng)價(jià)結(jié)果顯示,“學(xué)者普語”不僅在知識(shí)掌握、閱讀理解、數(shù)學(xué)推理、多語種翻譯等多項(xiàng)測試任務(wù)中表現(xiàn)出色,而且綜合能力較強(qiáng),因此在綜合考試中表現(xiàn)突出,并在多項(xiàng)中國考試中超過ChatGPT,包括中國高考各科目數(shù)據(jù)集(高考)。
2023年7月6日,在2023世界人工智能大會(huì)暨科學(xué)前沿全會(huì)開幕式上,上海人工智能實(shí)驗(yàn)室攜手商湯科技、香港中文大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、清華大學(xué)發(fā)布了全新升級(jí)的“學(xué)者通用大模型系統(tǒng)”,包括學(xué)者多模態(tài)、學(xué)者普宇、學(xué)者天際線三個(gè)基礎(chǔ)模型,以及首個(gè)面向大模型開發(fā)應(yīng)用的全鏈條開源系統(tǒng)。
2023年8月14日,上海人工智能實(shí)驗(yàn)室宣布與中國大模型語料庫數(shù)據(jù)聯(lián)盟成員單位合作,共同發(fā)布“學(xué)者萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料庫。目前(截至2023年12月18日)分為文本數(shù)據(jù)集、圖形數(shù)據(jù)集和視頻數(shù)據(jù)集三部分。開源數(shù)據(jù)總量超過2TB,包括5億多文本、2200萬圖文文檔和1000個(gè)視頻節(jié)目,涵蓋科技、文學(xué)、媒體、教育和法律等領(lǐng)域。
基礎(chǔ)原理 編輯本段
通用視覺技術(shù)系統(tǒng)INTERN由七個(gè)模塊組成,包括三個(gè)基礎(chǔ)設(shè)施模塊:通用視覺數(shù)據(jù)系統(tǒng)、通用視覺網(wǎng)絡(luò)結(jié)構(gòu)和通用視覺評(píng)估基準(zhǔn),以及四個(gè)用于區(qū)分上游和下游的訓(xùn)練階段模塊。
在“書生通用大模型”的四個(gè)訓(xùn)練階段中,前三個(gè)階段位于技術(shù)鏈上游,在模型的表示普適性上下足了功夫;第四級(jí)位于下游,可用于解決各種下游任務(wù)。
第一階段重點(diǎn)培養(yǎng)“基本能力”,即讓他們廣泛學(xué)習(xí)基本常識(shí),為后續(xù)學(xué)習(xí)階段打好基礎(chǔ);第二階段是培養(yǎng)“專家能力”,即多個(gè)專家模型學(xué)習(xí)某一領(lǐng)域的專業(yè)知識(shí),使每個(gè)專家模型都能掌握該領(lǐng)域的技能并成為專家;第三階段是培養(yǎng)“通用能力”。隨著各種能力的整合,“學(xué)者”在所有技能領(lǐng)域都表現(xiàn)出出色的水平,并具有快速學(xué)習(xí)新技能的能力。
在循序漸進(jìn)的前三個(gè)培訓(xùn)階段中,“學(xué)者”在循序漸進(jìn)的學(xué)習(xí)過程中具有高度的通用性。當(dāng)它進(jìn)化到第四階段時(shí),系統(tǒng)將具有“遷移能力”。此時(shí),“學(xué)者”所學(xué)的通用知識(shí)可以應(yīng)用于特定領(lǐng)域的不同任務(wù),如智慧城市、智慧醫(yī)療、自動(dòng)駕駛等。,實(shí)現(xiàn)廣泛賦能。
“學(xué)者”在圖文跨模態(tài)領(lǐng)域的突出表現(xiàn)來自于視覺、語音和多任務(wù)建模能力的有效整合,即Intermage-G通用視覺模型、用于文本理解的超大規(guī)模語言預(yù)訓(xùn)練模型(LLM)和用于多任務(wù)的Uni-epider模型。
其中,Intermage-G通用視覺宏大模型可以基于動(dòng)態(tài)稀疏卷積算子自適應(yīng)地調(diào)整卷積的位置和組合,從而為多功能視覺感知提供了有力的表示。超大型語言模型通過在超大型富文本語料庫上進(jìn)行預(yù)訓(xùn)練來提供強(qiáng)大而可靠的文本特征。uni-epider通用任務(wù)解碼建模通過將不同模式的數(shù)據(jù)編碼到統(tǒng)一的表示空間中,將不同的任務(wù)統(tǒng)一到同一任務(wù)范式中,從而可以使用相同的架構(gòu)和共享的模型參數(shù)同時(shí)處理各種模式和任務(wù)。
此外,《書生》創(chuàng)新性地引入了任務(wù)級(jí)稀疏激活機(jī)制,使其具備高效的多任務(wù)協(xié)同能力。在主流視覺圖像分類數(shù)據(jù)集ImageNet上,僅基于公開數(shù)據(jù),該模型就達(dá)到了90.1%的Top-1準(zhǔn)確率。
“學(xué)者”模型可以全面覆蓋四個(gè)視覺核心任務(wù):分類、對象檢測、語義分割和深度估計(jì)。在ImageNet等26個(gè)下游場景中,學(xué)者模型具有普適性,提高了這些長尾小樣本可視化場景的性能。借助“學(xué)者”通用視覺技術(shù)系統(tǒng),行業(yè)能夠以極低的下游數(shù)據(jù)獲取成本快速驗(yàn)證多個(gè)新場景,有利于解鎖和實(shí)現(xiàn)人工智能的長尾應(yīng)用。依托“學(xué)者”的特色表達(dá)能力,它還實(shí)現(xiàn)了多任務(wù)學(xué)習(xí)、小樣本學(xué)習(xí)和脫離分布檢測的能力。針對各類細(xì)分質(zhì)檢場景,準(zhǔn)確率可達(dá)99.5%以上,打破了AI技術(shù)在工業(yè)質(zhì)檢領(lǐng)域大規(guī)模應(yīng)用的壁壘。
功能特性 編輯本段
書生多式聯(lián)運(yùn):學(xué)者多模態(tài)將語言、圖像、視頻等多種模態(tài)無縫融合,首次通過自然語言實(shí)現(xiàn)視覺任務(wù)的定義,具備多模態(tài)交互和跨模態(tài)生成能力。多模態(tài)模型擁有200億個(gè)參數(shù),支持350萬個(gè)語義標(biāo)簽。學(xué)者多模態(tài)有三個(gè)核心能力:開放世界理解、跨模態(tài)生成和多模態(tài)交互。
書生2.5的多模態(tài)通用大模型具有AIGC“從文本創(chuàng)建圖片”的能力,可以根據(jù)用戶提出的文本創(chuàng)建需求,使用擴(kuò)散模型生成算法生成高質(zhì)量、自然逼真的圖像。例如,在“學(xué)者2.5”的幫助下,它幫助自動(dòng)駕駛技術(shù)的研發(fā),并通過生成各種真實(shí)的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓(xùn)練數(shù)據(jù)。,然后訓(xùn)練自動(dòng)駕駛系統(tǒng)對拐角情況場景的感知上限。
同時(shí),它可以在自動(dòng)駕駛和家用機(jī)器人等一般場景中輔助完成任務(wù):在自動(dòng)駕駛和家用機(jī)器人等一般場景中,“學(xué)者”可以輔助處理各種復(fù)雜任務(wù)。例如,在自動(dòng)駕駛場景中,它可以大大提高對場景的感知和理解能力,準(zhǔn)確輔助車輛判斷紅綠燈、路標(biāo)等信息的狀態(tài),為車輛的決策規(guī)劃提供有效的信息輸入。例如,在“學(xué)者2.5”的幫助下,它幫助自動(dòng)駕駛技術(shù)的研發(fā),并通過生成各種真實(shí)的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓(xùn)練數(shù)據(jù)。,然后訓(xùn)練自動(dòng)駕駛系統(tǒng)對拐角情況場景的感知上限。
在自動(dòng)駕駛和家用機(jī)器人等一般場景中,“書生”可以輔助完成任務(wù):在自動(dòng)駕駛和家用機(jī)器人等一般場景中,“書生”可以輔助處理各種復(fù)雜任務(wù)。例如,在自動(dòng)駕駛場景中,它可以大大提高對場景的感知和理解能力,準(zhǔn)確輔助車輛判斷紅綠燈、路標(biāo)等信息的狀態(tài),為車輛的決策規(guī)劃提供有效的信息輸入。例如,在“學(xué)者2.5”的幫助下,它幫助自動(dòng)駕駛技術(shù)的研發(fā),并通過生成各種真實(shí)的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓(xùn)練數(shù)據(jù)。,然后訓(xùn)練自動(dòng)駕駛系統(tǒng)對拐角情況場景的感知上限。
書圣璞玉:學(xué)者普語是國內(nèi)首個(gè)支持8K上下文長度的官方語言模型。學(xué)者Pu Yu擁有1040億個(gè)參數(shù),并在包含1.8萬億token的高質(zhì)量語料庫上進(jìn)行訓(xùn)練。
學(xué)者普宇開發(fā)了具有70億個(gè)參數(shù)的輕量級(jí)版本InternLM-7B,以及貫穿數(shù)據(jù)、預(yù)訓(xùn)練、微調(diào)、部署和評(píng)估五個(gè)環(huán)節(jié)的全鏈工具系統(tǒng)。在40個(gè)評(píng)估集的全維評(píng)估中,InternLM-7B表現(xiàn)出出色而均衡的性能,創(chuàng)造了7B級(jí)模型的新世界紀(jì)錄。上海人工智能實(shí)驗(yàn)室教授林達(dá)華表示:“通過開源開放,我們希望助力大模型的創(chuàng)新和應(yīng)用,讓更多領(lǐng)域和行業(yè)在大模型變革的浪潮中受益。”
在數(shù)據(jù)鏈路方面,通過OpenDataLab開放了包含30多種模態(tài)的5500個(gè)公共數(shù)據(jù)集,其中以自然語言開放了超過10000億token的高質(zhì)量語料庫。在預(yù)訓(xùn)練中,面向輕量級(jí)語言模型的訓(xùn)練框架InternLM-Train開源,支持從8張卡到1024張卡的并行訓(xùn)練,并提出了Hybrid-Zero的獨(dú)特技術(shù)。在微調(diào)階段,全流程微調(diào)工具開源,支持SFT和RLHF,還支持訓(xùn)練模型進(jìn)行復(fù)雜符號(hào)計(jì)算和工具調(diào)用,通過代碼解決復(fù)雜的數(shù)學(xué)計(jì)算問題。在部署過程中,部署推理工具鏈LMDeploy是開源的。它支持10億到1000億個(gè)參數(shù)化語言模型的高效推理,其性能超越了HuggingFace、Deepspeed和vLLM等主流推理框架。在評(píng)測階段,開放評(píng)測平臺(tái)OpenCompass上線,支持大模型一站式全方位評(píng)測,包含40多個(gè)評(píng)測集和30萬個(gè)評(píng)測主題。通過全自動(dòng)分布式評(píng)測,可以有效復(fù)現(xiàn)開源模型的性能。
蜀圣天記:“學(xué)者天空”是全球首個(gè)城市級(jí)NeRF(神經(jīng)輻射場)三維大規(guī)模模型,擁有千億級(jí)參數(shù),并在全球首次實(shí)現(xiàn)100平方公里城市實(shí)景的4K高精度建模和編輯。
同時(shí)支持全范圍高精度實(shí)時(shí)渲染,首次實(shí)現(xiàn)城市級(jí)NeRF百平方公里全范圍1k分辨率、30幀實(shí)時(shí)渲染、4k分辨率離線渲染。此外,它還支持城市級(jí)編輯、風(fēng)格轉(zhuǎn)換等功能,并提供豐富的超越和重建功能,包括城市編輯功能,如移除、構(gòu)建和旋轉(zhuǎn)城市建筑,以及調(diào)整城市風(fēng)格變化,如照明和季節(jié)。Scholar Sky提供了一個(gè)訓(xùn)練、渲染和交互的一體化系統(tǒng),并實(shí)現(xiàn)了一個(gè)覆蓋算法、算子、計(jì)算系統(tǒng)和用戶交互的城市級(jí)NeRF系統(tǒng),為訓(xùn)練、渲染、交互和應(yīng)用提供了基礎(chǔ)。
為滿足行業(yè)實(shí)際需求,上海AI Lab開放了學(xué)者天空的核心算法和訓(xùn)練策略,用戶可根據(jù)自身應(yīng)用場景復(fù)現(xiàn)大模型能力。核心算法和模型訓(xùn)練策略是學(xué)者天空實(shí)現(xiàn)當(dāng)前能力的關(guān)鍵。在本次開源中,學(xué)者Skyline首次公開了多分支GridNeRF模型的核心算法及其匹配訓(xùn)練策略。在特定的場景中,研究人員和從業(yè)者可以使用開源內(nèi)容來重現(xiàn)和實(shí)現(xiàn)學(xué)者Skyline相關(guān)的能力。
舒萬圣卷:學(xué)者萬卷語料數(shù)據(jù)聯(lián)盟成員的內(nèi)容積累和上海ai實(shí)驗(yàn)室的數(shù)據(jù)處理能力,“學(xué)者萬卷”為學(xué)術(shù)界和產(chǎn)業(yè)界提供大規(guī)模多模態(tài)預(yù)訓(xùn)練語料。
“學(xué)者萬卷”1.0的多模態(tài)預(yù)訓(xùn)練語料分為文本數(shù)據(jù)集、圖形數(shù)據(jù)集和視頻數(shù)據(jù)集三部分,開源數(shù)據(jù)總量超過2TB。其中,文本數(shù)據(jù)是從不同來源(如網(wǎng)頁、百科全書、書籍、專利、教科書、試題等)清洗后的預(yù)訓(xùn)練語料。數(shù)據(jù)總量超過5億文檔,數(shù)據(jù)規(guī)模超過1TB,涵蓋科技、文學(xué)、傳媒、教育、法律等多個(gè)領(lǐng)域。圖形數(shù)據(jù)主要來自公共網(wǎng)頁,經(jīng)過處理后形成圖形交錯(cuò)文檔。文檔總數(shù)超過2200萬,數(shù)據(jù)大小超過140GB(不含圖片),涵蓋新聞事件、人物、自然景觀、社會(huì)生活等多個(gè)領(lǐng)域。視頻數(shù)據(jù)主要來自中央廣播電視總臺(tái)和上海文光集團(tuán),包括新聞、電影和其他類型的節(jié)目圖像。視頻文件總數(shù)超過1000個(gè),數(shù)據(jù)大小超過900GB,涵蓋軍事、文學(xué)、體育、自然、真實(shí)世界、知識(shí)、視頻藝術(shù)、媒體、食品、歷史、科教等。
交互特點(diǎn) 編輯本段
跨模態(tài)生成:通過聯(lián)合學(xué)習(xí),學(xué)者多模態(tài)可以實(shí)現(xiàn)模式之間的相互轉(zhuǎn)換。研究人員試圖讓學(xué)者多模根據(jù)張大千的《湖山清夏圖》創(chuàng)作一首七言絕句。驗(yàn)證結(jié)果表明,經(jīng)過聯(lián)合學(xué)習(xí),學(xué)者多模態(tài)具有良好的從圖像到文本的跨模態(tài)生成能力,在中國具有深厚的文化積淀。在生成文本的同時(shí),書生多模也給出了創(chuàng)作思路:根據(jù)畫面,確定描繪美麗的自然風(fēng)光畫面;從畫面中尋找能表達(dá)詩人思想感情的元素,如畫中的巍峨山峰、云霧繚繞、蒼松蒼松;根據(jù)元素構(gòu)思一首詩;最后根據(jù)詩的節(jié)奏和格律加以完善。學(xué)者多模還特別描述了第四句的靈感來源:他借用了唐代詩人韋莊的名句“春水比天亮,畫船聽雨眠”。
多模態(tài)交互:學(xué)者多模態(tài)繼承了上一代學(xué)者在常規(guī)預(yù)定義視覺任務(wù)中的表現(xiàn),但也創(chuàng)新了人機(jī)交互的方式。用戶可以通過光標(biāo)點(diǎn)擊、聊天等方式準(zhǔn)確傳達(dá)指令。Scholar multimodal降低了人工智能任務(wù)的門檻,并使人工智能成為可供數(shù)千人使用的生產(chǎn)工具。多模態(tài)理解、生成和交互能力正成為大模型新一輪進(jìn)化的重要方向。
書圣璞玉:上下文窗口的長度很長:上下文窗口的長度從2K增加到8K,具有理解長輸入、擴(kuò)展復(fù)雜推理和進(jìn)行長時(shí)間多輪對話的能力。
強(qiáng)大的多語言和結(jié)構(gòu)化表達(dá)能力:新模型支持20多種語言,還可以通過表格和圖表總結(jié)和呈現(xiàn)復(fù)雜信息。
多維度能力全面提升:在42個(gè)主流評(píng)測集上性能均有提升。
數(shù)學(xué)邏輯能力強(qiáng):提高數(shù)值計(jì)算、函數(shù)運(yùn)算、方程求解等數(shù)學(xué)能力。2023年高考數(shù)學(xué)選擇題中,正確率提高了70%以上。
強(qiáng)大的安全性和對準(zhǔn)能力:它可以更可靠地遵循人類指令,安全性也明顯提高。
蜀圣天記:從單一渲染到使用GirdNeRF的自由擴(kuò)展:
NeRF是一種新的三維重建和表征技術(shù),可以用少量數(shù)據(jù)實(shí)現(xiàn)三維重建,廣泛應(yīng)用于對象級(jí)三維建模。為實(shí)現(xiàn)城市級(jí)大規(guī)模實(shí)景建模,2021年12月,上海AI Lab首次提出CityNeRF,將不同高度的衛(wèi)星和近景影像有效融合,率先將NeRF建模技術(shù)從物體級(jí)擴(kuò)展到城市級(jí)。通過采集單個(gè)建筑物的飛行圖像,可以實(shí)現(xiàn)一定規(guī)模的真實(shí)場景渲染和重建。在CityNeRF的基礎(chǔ)上,上海AI實(shí)驗(yàn)室進(jìn)一步開發(fā)了第二代CityNeRF技術(shù),即GridNeRF。
基于網(wǎng)格表示和NeRF表示相結(jié)合的GridNeRF支持模型的多層次擴(kuò)展,為大規(guī)模城市級(jí)建模奠定了技術(shù)基礎(chǔ)。第二代CityNeRF從捕捉單個(gè)建筑物擴(kuò)展到收集整個(gè)區(qū)域的細(xì)節(jié)。與第一代CityNeRF技術(shù)只能在單個(gè)建筑物周圍進(jìn)行渲染不同,最新技術(shù)可以實(shí)現(xiàn)在整個(gè)區(qū)域內(nèi)上下飛行,平移和穿梭,建模效率更高。
真實(shí)三維建模的新范例:基于“算法+計(jì)算系統(tǒng)+算子”的系統(tǒng)化解決思路,并通過其采用的漸進(jìn)渲染、并行訓(xùn)練和多分支策略,在實(shí)際應(yīng)用中,Scholar Sky已成為集訓(xùn)練、渲染和交互于一體的系統(tǒng),開創(chuàng)了城市級(jí)真實(shí)場景三維建模的新范式。
雙枝模型結(jié)構(gòu),捕捉場景細(xì)節(jié);GirdNeRF由兩個(gè)分支組成,其中Grid分支將場景分解為地面特征平面和垂直特征軸,即將城市場景分解為更小的粒度,然后通過NeRF分支使用輕量級(jí)MLP網(wǎng)絡(luò)重構(gòu)訓(xùn)練視角,生成高質(zhì)量的渲染圖像。同時(shí),通過一種化整為零的策略,采用漸進(jìn)渲染的方式更好地支持大規(guī)模場景渲染,為無限城市場景的重構(gòu)提供了可能。
合理化跳轉(zhuǎn)空白:Scholar Sky可以在算法的光線收集階段準(zhǔn)確預(yù)測對實(shí)際重建無效的采樣點(diǎn),從而“合理化跳躍”。Scholar Sky擁有數(shù)千億個(gè)參數(shù),preamble的采樣數(shù)量和計(jì)算效率對模型的訓(xùn)練和渲染性能至關(guān)重要。而且算法模型會(huì)提前終止不必要的渲染,不僅可以更好地減少渲染計(jì)算量,提高計(jì)算效率,還可以將前導(dǎo)的采樣數(shù)量減少90%以上,降低計(jì)算復(fù)雜度和渲染成本。
平行培訓(xùn)和多分支戰(zhàn)略;在訓(xùn)練策略方面,學(xué)者天璣通過PlaneParallel和ChannelParallel模型的并行訓(xùn)練,將訓(xùn)練任務(wù)分成多個(gè)部分,并在多臺(tái)計(jì)算機(jī)上同時(shí)完成,提高了訓(xùn)練速度。同時(shí)設(shè)計(jì)了多分支模型和相應(yīng)的BranchParallel訓(xùn)練策略,將模型分成多個(gè)部分,每個(gè)部分負(fù)責(zé)處理圖像的一部分,以使模型適應(yīng)不同的場景和尺度。這些策略有助于減少訓(xùn)練時(shí)間和資源需求,使模型更好地理解和編輯城市場景,并將渲染效率提高1000倍。
舒萬圣卷:基于語料庫數(shù)據(jù)聯(lián)盟構(gòu)建的語料庫,上海AI Lab對部分?jǐn)?shù)據(jù)進(jìn)行了細(xì)粒度清洗、去重和對齊值處理,形成了多模態(tài)預(yù)訓(xùn)練語料庫“學(xué)者萬卷”1.0,具有多元融合、精細(xì)加工、值對齊、易用高效四大特點(diǎn)。
在多元融合方面,“學(xué)者萬卷”1.0包含文本、圖形、視頻等多模態(tài)數(shù)據(jù),涵蓋科技、文學(xué)、傳媒、教育、法律等多個(gè)領(lǐng)域,在訓(xùn)練和提升模型的知識(shí)內(nèi)容、邏輯推理和泛化能力方面效果顯著。
在精細(xì)化處理方面:學(xué)者萬卷1.0經(jīng)歷了語言篩選、文本抽取、格式標(biāo)準(zhǔn)化、基于規(guī)則和模型的數(shù)據(jù)過濾和清洗、多尺度去重、數(shù)據(jù)質(zhì)量評(píng)估等多個(gè)精細(xì)化數(shù)據(jù)處理步驟。,因此可以更好地滿足后續(xù)模型預(yù)訓(xùn)練的需要。
在價(jià)值對齊方面:在“學(xué)者萬卷”1.0的建設(shè)過程中,研究人員重點(diǎn)關(guān)注內(nèi)容與中國主流價(jià)值觀之間的對齊,并通過算法和人工評(píng)估相結(jié)合的方式提高語料庫的純度。
在易用性和效率方面,研究人員在“學(xué)者萬卷”1.0中采用了統(tǒng)一的格式,并提供了詳細(xì)的領(lǐng)域描述和工具指導(dǎo),使其既易用又高效,可以快速應(yīng)用于語言和多模態(tài)模型等大型模型的預(yù)訓(xùn)練。
附件列表
詞條內(nèi)容僅供參考,如果您需要解決具體問題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。