頂[0] 分享評(píng)論[0] 編輯

百川大模型

百川大模型是百川智能推出的一款大模型產(chǎn)品。它結(jié)合了意圖理解、信息檢索和強(qiáng)化學(xué)習(xí)技術(shù)，將監(jiān)督微調(diào)與人類(lèi)意圖對(duì)齊相結(jié)合，支持多輪對(duì)話、內(nèi)容生成、文章摘要、知識(shí)問(wèn)答、代碼生成、指令跟隨、數(shù)學(xué)和邏輯推理等多種場(chǎng)景。百川智能是中國(guó)擁有大型模型的獨(dú)角獸公司。截至2023年12月，其已發(fā)布7款大型機(jī)型，包括4款開(kāi)源機(jī)型百川-7B/13B和兩款閉源機(jī)型百川-53b、百川-53B和百川2-192K-192k。

百川系列是世界上下載量最多的開(kāi)源模型之一。截至2023年12月，百川模型的下載量已超過(guò)500萬(wàn)次。自百川-53B模型發(fā)布以來(lái)，已有200多家企業(yè)申請(qǐng)部署和試用百川開(kāi)源模型。

發(fā)展歷史編輯本段

2023年4月10日，搜狗創(chuàng)始人兼前CEO王小川在社交媒體上發(fā)布消息稱(chēng)，大型語(yǔ)言模型公司百川智能成立，主要業(yè)務(wù)方向是開(kāi)發(fā)和提供通用人工智能服務(wù)。

2023年6月15日，百川智能發(fā)布了一款名為百川-7B的大型開(kāi)源車(chē)型。基于Transformer結(jié)構(gòu)，該模型已在約1.2萬(wàn)億個(gè)代幣上進(jìn)行訓(xùn)練，其中包含70億個(gè)參數(shù)。它還支持中文和英文，上下文窗口長(zhǎng)度為4096。

2023年7月11日，百川智能正式發(fā)布了兩個(gè)量化版本，分別是通用大語(yǔ)言模型百川-13B-Base、對(duì)話模型百川-13B-Chat及其參數(shù)為130億的INT4/INT8。

2023年8月31日凌晨，百川智能宣布其大模型已通過(guò)《生成式人工智能服務(wù)管理暫行辦法》備案，并向公眾開(kāi)放。9月20日，百川智能大模型API上線。

2023年9月6日，百川智能舉辦了以“百川會(huì)海，開(kāi)源共贏”為主題的大模型發(fā)布會(huì)。會(huì)上，百川智能宣布百川2-7B、百川2-13B、百川2-13B-Chat及其4-4bit量化版本正式開(kāi)源并進(jìn)行微調(diào)，它們均可免費(fèi)商用。

2023年9月25日，百川智能發(fā)布了百川2-53B閉源大模型，該模型顯著提升了數(shù)學(xué)和邏輯推理能力，并通過(guò)建立高質(zhì)量數(shù)據(jù)系統(tǒng)和增強(qiáng)搜索功能成功減少了模型錯(cuò)覺(jué)的發(fā)生。此外，百川智能還開(kāi)放了百川2-53B的API接口。通過(guò)開(kāi)放API，百川智能將為各界合作伙伴提供大規(guī)模模型能力，推動(dòng)企業(yè)智能化發(fā)展。

2023年10月17日，百川智能宣布完成3億美元A1輪戰(zhàn)略融資。阿里巴巴、騰訊、小米等知名科技公司和多家頂級(jí)投資機(jī)構(gòu)均參與了本輪融資。加上此前的5000萬(wàn)美元天使輪投資，百川智能累計(jì)融資金額已達(dá)3.5億美元（約25.43億元人民幣）。目前，百川智能的團(tuán)隊(duì)規(guī)模超過(guò)170人，其中R&D人員占80%以上。

2023年10月30日，百川智能宣布推出百川2-192K大機(jī)型。該模型具有很長(zhǎng)的上下文窗口，長(zhǎng)度為192K，可以處理大約350，000個(gè)漢字。百川2-192K的發(fā)布不僅在大模型技術(shù)領(lǐng)域取得了重要突破，還驗(yàn)證了長(zhǎng)上下文窗口的可行性，為提升大模型性能開(kāi)辟了新的研究路徑。

基礎(chǔ)設(shè)施編輯本段

百川2系列是一個(gè)大規(guī)模多語(yǔ)言模型，其模型架構(gòu)基于主流的Transformer。百川2有兩個(gè)獨(dú)立的模型:百川2-7B有70億個(gè)參數(shù)，百川2-13B有130億個(gè)參數(shù)。

分詞器單詞分隔符：在分詞設(shè)計(jì)中，需要平衡兩個(gè)關(guān)鍵因素:一是高效推理所需的高壓縮率，二是大小合適的詞匯量。為了充分訓(xùn)練每個(gè)單詞的嵌入，百川團(tuán)隊(duì)采用了來(lái)自SentencePiece的字節(jié)對(duì)編碼，并且沒(méi)有對(duì)輸入文本進(jìn)行歸一化處理。為了更好地對(duì)數(shù)字?jǐn)?shù)據(jù)進(jìn)行編碼，并對(duì)包含額外空格的數(shù)據(jù)進(jìn)行編碼，百川團(tuán)隊(duì)還在單詞分隔符中添加了僅包含空格的標(biāo)記，并將數(shù)字分成單個(gè)數(shù)字。此外，為了考慮到中文中存在一些長(zhǎng)短語(yǔ)，百川團(tuán)隊(duì)將最大token長(zhǎng)度設(shè)置為32。在位置編碼上，百川2-7B采用繩索，而百川2-13B采用不在場(chǎng)證明。

百川大模型

激活功能和標(biāo)準(zhǔn)化：百川2在激活功能和標(biāo)準(zhǔn)化方面采用了SwiGLU+xFormers（注意力和偏離能力結(jié)合ALiBi以減少內(nèi)存開(kāi)銷(xiāo)）+RMSNorm（層歸一化變壓器塊的輸入）。

激活功能:百川2使用SwiGLU激活功能。SwiGLU具有“雙線性”層并包含三個(gè)參數(shù)矩陣，這與包含兩個(gè)矩陣的傳統(tǒng)變壓器前饋層不同。因此，百川團(tuán)隊(duì)將隱藏大小從4倍減少到了8倍，并進(jìn)行了適當(dāng)調(diào)整。

注意層:百川2采用xFormers2實(shí)現(xiàn)記憶高效注意。通過(guò)利用xFormers優(yōu)化注意力和偏差的能力，我們可以將ALiBi基于偏差的位置編碼集成到模型中，并減少內(nèi)存開(kāi)銷(xiāo)。這為百川2的大規(guī)模訓(xùn)練提供了性能和效率優(yōu)勢(shì)。

歸一化:百川2將層歸一化應(yīng)用于Transformer block的輸入，這對(duì)于預(yù)熱更加魯棒。此外，該模型由RMSNorm實(shí)現(xiàn)，該模型僅計(jì)算輸入特征的方差以提高效率。

功能服務(wù) 編輯本段

百川模型目前處于開(kāi)發(fā)階段，部分功能尚未完善。普通用戶可以通過(guò)百城2-53b機(jī)型體驗(yàn)知識(shí)問(wèn)答、文字創(chuàng)作等功能。百川智能表示，百川-53B在文本創(chuàng)作的創(chuàng)意、風(fēng)格模仿和實(shí)用性方面都可以做到足夠出色，并且可以對(duì)大多數(shù)任務(wù)給出良好的響應(yīng)。但大模型似乎不認(rèn)為它有能力獲得實(shí)時(shí)消息。

數(shù)據(jù)概述

培訓(xùn)數(shù)據(jù)源：百川2模型訓(xùn)練是在通用、法律、醫(yī)療、數(shù)學(xué)、代碼和多語(yǔ)種翻譯六個(gè)領(lǐng)域的權(quán)威中英和多語(yǔ)種數(shù)據(jù)集上對(duì)模型進(jìn)行全面測(cè)試。百川智能團(tuán)隊(duì)通過(guò)各種渠道收集數(shù)據(jù)，包括互聯(lián)網(wǎng)頁(yè)面、書(shū)籍、研究論文、代碼庫(kù)等。，以建立全面的世界知識(shí)體系。

數(shù)據(jù)規(guī)模：百川2的數(shù)據(jù)是基于數(shù)萬(wàn)億的互聯(lián)網(wǎng)數(shù)據(jù)，它也是從健康和法律等垂直行業(yè)中選擇和采用的。此外，該模型建立在世界知識(shí)體系之上。在數(shù)據(jù)處理階段，《百川2》利用超大規(guī)模內(nèi)容聚類(lèi)系統(tǒng)對(duì)千億級(jí)數(shù)據(jù)進(jìn)行清洗和過(guò)濾，并對(duì)章節(jié)、段落和句子進(jìn)行多粒度的質(zhì)量評(píng)估?！栋俅?》使用2.6TB的超大規(guī)模語(yǔ)料庫(kù)進(jìn)行訓(xùn)練，支持中文、英語(yǔ)、西班牙語(yǔ)和法語(yǔ)等數(shù)十種語(yǔ)言。這些技術(shù)手段和數(shù)據(jù)資源的采用，為“百川2號(hào)”的訓(xùn)練提供了有力支撐。

數(shù)據(jù)處理：百川團(tuán)隊(duì)在數(shù)據(jù)處理中注重?cái)?shù)據(jù)的頻率和質(zhì)量。為了確保數(shù)據(jù)頻率的高效率和準(zhǔn)確性，他們?cè)O(shè)計(jì)了一個(gè)大規(guī)模重復(fù)數(shù)據(jù)刪除和聚類(lèi)系統(tǒng)，該系統(tǒng)支持類(lèi)LSH特征和密集嵌入特征。該系統(tǒng)可以在短時(shí)間內(nèi)對(duì)數(shù)萬(wàn)億數(shù)據(jù)進(jìn)行群集和重復(fù)數(shù)據(jù)消除?；诰垲?lèi)結(jié)果，系統(tǒng)還可以復(fù)制文檔、段落和句子，并計(jì)算用于采樣預(yù)訓(xùn)練數(shù)據(jù)的分?jǐn)?shù)。

應(yīng)用領(lǐng)域編輯本段

截至2023年9月，已有超過(guò)200家企業(yè)申請(qǐng)部署百川模式，覆蓋云廠商、科技行業(yè)、制造、消費(fèi)等多個(gè)行業(yè)的企業(yè)。

百川大模型

發(fā)展歷史編輯本段

基礎(chǔ)設(shè)施編輯本段

功能服務(wù) 編輯本段

數(shù)據(jù)概述

應(yīng)用領(lǐng)域編輯本段

相關(guān)合作編輯本段

附件列表

標(biāo)簽

同義詞

百川大模型

發(fā)展歷史 編輯本段

基礎(chǔ)設(shè)施 編輯本段

功能服務(wù) 編輯本段

數(shù)據(jù)概述

應(yīng)用領(lǐng)域 編輯本段

相關(guān)合作 編輯本段

附件列表

標(biāo)簽

同義詞

發(fā)展歷史編輯本段

基礎(chǔ)設(shè)施編輯本段

應(yīng)用領(lǐng)域編輯本段

相關(guān)合作編輯本段