觸屏版 您好,歡迎瀏覽深圳銷毀公司_文件銷毀_過期食品銷毀_過期化妝品銷毀-廣東益福深圳銷毀公司

深圳銷毀公司_文件銷毀_過期食品銷毀_過期化妝品銷毀-廣東益福深圳銷毀公司

深圳銷毀公司,過期食品銷毀,過期化妝品銷毀,文件銷毀,電腦硬盤銷毀,保密資料銷毀,電子產(chǎn)品銷毀,服裝銷毀,假冒偽劣產(chǎn)品銷毀
  您當前所在位置:首頁 > 惠州銷毀公司

深圳銷毀公司:280萬大模型中文開發(fā)者拿到最終一塊拼圖

時間:2024-07-20 10:22

2023年5月,微軟CEO納德拉拋出一個驚人數(shù)字,將來全球的開發(fā)者數(shù)量將要達到10億。

那時候Meta的Llama已經(jīng)開源4個月,但一些大陸的開發(fā)者呈現(xiàn),從小以英文語料喂養(yǎng)起來的Llama,對中文地球并不友好。

這將來的“10億”開發(fā)者里會有多少中文開發(fā)者,這個問題難以推斷,但至少已經(jīng)有755萬人了。

圖源備注:圖片由AI生成,圖片授權服務商Midjourney

755萬人,這是2023年在GitHub上注冊的中國程序員數(shù)量,現(xiàn)時的程序員一定會是未來大模型的第一批開發(fā)者。

有不少人曾經(jīng)是了。

在浙江省電力設計院工作的陶佳,測驗用一個開源的大模型來做基于私有知識庫的檢索問答類應用。他所面對的場景很突出,經(jīng)常需要從幾十萬甚至上百萬字的文檔中查找內容。陶佳的專注是電力系統(tǒng)控制優(yōu)化,里面有一些結合了傳統(tǒng)數(shù)學方法和AI方法的領域,因此對AI有基本認識,也從去年底就一直在關注著這波大模型的浪潮。

他試了幾款,試下來通義千問是最好的。“準確,而且‘手感’很好,沒有那些出格古怪的bug”,他說。

要做的事也很簡單。有一些基本的軟硬件基礎后,在家里買個服務器、扔三四塊顯卡上去,下載通義千問、讓它在服務器上運行,再搞個FRP反向代理,從阿里云上買最便宜的30多塊錢一個多月的服務就行,這樣就能通過外網(wǎng)訪問家里的服務器,在單位里也能用通義千問做實驗。

當一個開源生態(tài)開始成型,這樣的開發(fā)者也一步步變多。

開始閉環(huán)的開源生態(tài)

陶佳對大模型最深處的盼望來自一個終極問題:人類能否成為上帝?

美國的未來學家?guī)炱濏f爾在2023年已經(jīng)提出過這種或然性。庫茲韋爾的想象里,人類到2030年將能夠成為半機器人。通過在腦中植入納米機器人,人類將抑或直接接入互聯(lián)網(wǎng),智力將變得更高,并且將擁有幽默、音樂和愛等快樂的天賦和能力。人類將成為像上帝相像的完美存在。

那一年OpenAI方才建立,但8年前庫茲韋爾的設想放到當下還是有同樣的地方,只不過當今看起來好像在一個機器人(Agent)中注入意識和人性,這條路好像更近點——也就是AGI。

但哪怕技術是爆炸、是躍遷式的,當下離AGI還很遠。倘或說AGI會再造一個新的世界,那當今人類對大模型的祈望,繼續(xù)是在現(xiàn)實基礎上改造地球。而這首先需要建立在我們知道這個天下是什么狀貌的,哪里需要被改造。世界真實的聲音需要被聽到,建立一條通道格外重大。

大模型時代的開源,意義就在這里。來自不同現(xiàn)實場景,又具有代碼能力的人們需要一個廣場,來讓技術主動和場景對齊,然后具有代表性的產(chǎn)品才或然涌現(xiàn)。

這個廣場要供大家互動用,還要有充足且價格合適的算力資源,同時也需要足夠充實的可調用模型來做選擇。開發(fā)者要的是這樣一個閉環(huán)的開源生態(tài),通義千問的特長開始浮現(xiàn)出來。

算力是關于大模型所有想象力的基礎。通義千問背后的阿里云擁有我國最強的智能算力儲備作為基礎設施支持。其智算集群可達最大十萬卡GPU規(guī)模,這意味著在阿里云上允許承載多個萬億參數(shù)大模型同時在線訓練,為大規(guī)模AI集群供應無擁塞通訊的自研RDMA網(wǎng)絡架構和低成本高可靠的高性能存儲CPFS。

而在4月,阿里云在推出通義千問的同時,也發(fā)表了史上最大幅度的一次降價,對比上一代主售產(chǎn)品最高可下降40%的同時,還開放了計算、存儲、數(shù)據(jù)庫、機器學習等核心產(chǎn)品免費試用的機會。這為大批新涌入的AI開發(fā)者供給了測驗和試錯的機會。

在阿里云的算力支撐下,像陶佳相像的開發(fā)者開始帶著“野心”涌入魔搭社區(qū)。

去年11月的云棲大會上,阿里云與CCF開源發(fā)展委員會合伙推出AI模型社區(qū)“魔搭”ModelScope,在社區(qū)上線同時獻出了300多個AI模型,全面開源開放,其中超過1/3為中文模型。上線一年后,魔搭社區(qū)上的AI開發(fā)者數(shù)量早已超過280萬人,AI模型超過2300+,下載超過1億+。

隨著大模型的熱潮轉向Agent,魔搭社區(qū)在今年9月推出了AI Agent開發(fā)框架ModelScope-Agent,并且搭建了一個“打樣產(chǎn)品”ModeScopeGPT,它允許調用社區(qū)里眾多AI模型的API,然后自主兌現(xiàn)人類布置的任務。這個ModeScopeGPT 的調用量早已超過了40萬次。

除了通義千問之外,Llama2、智譜AI、百川智能甚至最新推出大模型的零一萬物等近百款開源模型日前都已經(jīng)進入社區(qū)。并且“正在中國有一半大模型公司跑在阿里云上”,阿里云CTO周靖人在2023年云棲大會上這樣說的時候,魔搭已經(jīng)是現(xiàn)在我國規(guī)模最大、用戶最活躍的AI模型開源地。

今朝增加的參數(shù)量

12月1日,阿里云舉行通義千問發(fā)表會,開源了通義千問720億參數(shù)模型Qwen-72B。在參數(shù)量上這是此刻國內主流視線中最大的開源大模型,而在能力上,Qwen-72B的性能曾經(jīng)在測驗中超越開源標桿Llama2-70B。

Qwen-72B的訓練基礎是3T tokens的高品質數(shù)據(jù),它采用了更多的參數(shù)和訓練數(shù)據(jù),完成了全面的性能提升。這個模型延續(xù)了通義千問預訓練模型的卓越展示,在10個權威測驗中取得開源模型中的最佳成績,并在某些評測中超越了非公開的GPT-3.5和GPT-4。

在英語任務方面,Qwen-72B在MMLU基準嘗試中獲得開源模型中的最高分。在中文任務中,它在CEVAL、CMMLU、Gaokao等評測中領先,甚至超過了GPT-4。在數(shù)學推理領域,Qwen-72B在GSM8K、MATH評測中遠超其他開源模型。同時,在代碼理解任務上,經(jīng)過HumanEval和MBPP評測,Qwen-72B展示了顯著的進步,其代碼能力實現(xiàn)了質的飛躍。

從8月初開始,Qwen-7B和Qwen-7B-Chat兩款開源模型在魔搭社區(qū)上線開始,通義千問自身的模型開源開始提上日程。8月25日,以Qwen-7B為基座語言模型創(chuàng)想,支持圖文輸入,具備多模態(tài)報道理解能力大規(guī)模視覺語言模型 Qwen-VL開源。

Qwen-VL開源的一個月以后,阿里云在9月25日開源了通義千問百億級的參數(shù)模型Qwen-14B及其對話模型Qwen-14B-Chat。這款模型在性能上開始頭一回看向Llama-70B,添加前幾款開源的模型,一個多月時間內在開源社區(qū)的下載量突破100萬,在性能和可用性的平衡上,70億和140億參數(shù)的尺寸也是對開發(fā)者最友好的。

但當這個大模型開源生態(tài)開始走深,開發(fā)者對模型的性能上限有了更高的要求,也就需要更大參數(shù)的模型。Qwen-72B開始吸引到一些初創(chuàng)團隊的目光。

“我對72B的模型抱有特別大的冀望,好奇72B在我們領域中的能力極限值。”

顏鑫是華東理工大學X-D Lab(心動實驗室)的成員,X-D Lab實驗室之前的商討方向包括社會計算與社會智能、群體智能與隱私保護、公共衛(wèi)生與輿情監(jiān)測、工業(yè)智能與智能系統(tǒng)等方面,大模型顯現(xiàn)之后,開始聚焦AI情感計算領域。

基于開源的通義千問基座模型,顏鑫和其他團隊成員陸續(xù)開發(fā)了心理健壯大模型 MindChat(漫談)、醫(yī)療壯健大模型 Sunsimiao(孫思邈)、教育/考試大模型 GradChat(錦鯉)三款垂直領域大模型,目下已有超過20萬人次使用過這三款大模型,累計供應了超過100萬次的問答服務。

推敲到計算資源的限制以及一些客戶對于私有化部署的需求,顏鑫表態(tài)當前團隊在供給問答服務時7B或14B尺寸的大模型是更合適的選擇,但在更開放的學術推敲上——譬如怎么利用聯(lián)邦學習算法處置數(shù)據(jù)——Qwen-72B有著前者不具備的性能特長。

而開源模型參數(shù)量的向上思慮,未來也有機會推動ModelScope-Agent這樣關于怎樣接近AGI的暢想更接近現(xiàn)實。

此前在阿里從事大數(shù)據(jù)業(yè)務近7年的秦續(xù)業(yè),刻下身份是將來速度Xorbits配合創(chuàng)始人&CEO。Xorbits打造了公司級的分布式推理框架Xinference。通過Xinference,開源模型允許降落在個人用戶和開發(fā)者的個人電腦上,企業(yè)用戶抑或在計算集群上輕松部署并管理模型,享受私有化部署帶來的安全、定制化以及低成本。

秦續(xù)業(yè)表態(tài),如若外接知識庫做問答應用,經(jīng)過大模型召回一些數(shù)據(jù),放到上下文中進行總結,最后給出有用的回應,那么小尺寸(10B以下)的模型是夠用的。要是需要具備一定的邏輯推理能力的模型,20-30B的中等尺寸模型是比較好的選擇。

“但在Agent也許需要強大推理能力的場景中,70B+的大模型會更有優(yōu)勢?!?/p>

AI Agent是秦續(xù)業(yè)遠處的冀望,但他相仿也是個現(xiàn)實主義者。眼下把模型用起來是更緊要的事情,所以Xorbits曾經(jīng)攻克的焦點,是讓通義千問跑在一臺Mac電腦上。

秦續(xù)業(yè)覺得這一點能擊中很多人。因為很多開發(fā)者都是用Mac電腦,他們直奔在本地拉起Qwen序列模型,允許極大提升開發(fā)影響。

Qwen類別的全尺寸完善不止一個72B的大參數(shù)模型。與Qwen-72B同步,阿里云這次開源了通義千問18億參數(shù)模型Qwen-1.8B和通義千問音頻大模型Qwen-Audio,至此,通義千問開源光譜早已了覆蓋從18億、70億到140億、720億參數(shù)的4款大語言模型,以及視覺理解(Qwen-VL)、音頻理解兩款多模態(tài)大模型。

大模型的開源生態(tài),這是AI時代最后抑或洶涌而來的一味藥引。周靖人對通義千問的定位是“AI時代最開放的大模型”,眼前打點好一切,靜待開發(fā)者入場了。

(舉報)

上一篇:沒有了

版權所有 廣東益福再生資源回收有限公司 粵ICP備17155072號