總體來看,整個生成式AI的產業地圖可以分為三類:上游資料服務產業、中游演算法模型產業、下游應用拓展產業(圖5-1)。
1. 資料服務
作為智慧型機器的「食物」和數位經濟世界的生產要素,資料在被「餵」給機器之前,常常會涉及查詢與處理、轉換與編排、標註與管理等前置步驟,而在整個資料的使用過程中也離不開治理與規範方面的管理工作。作為生成式AI的源頭,相關資料服務產業孕育了很大的商業機會。
2. 演算法模型
人工智慧之所以能判斷、分析、創作,主要是因為有支撐這些功能的演算法模型。因此,訓練演算法模型就成為整個產業鏈中最「燒腦」、最具技術含量和最具商業潛力的環節。在數位世界,圍繞著如何讓演算法模型更聰明的命題,誕生了包括人工智慧實驗室、集團科技研究院、開源社區等主要玩家,構成了整個產業鏈的中游環節。
3. 應用拓展
經過資料訓練後的演算法模型最終會在下游應用拓展層完成「學以致用」的使命,根據應用場景的模態和功能差異誕生出文本處理、音訊處理、影像處理、影片處理的各個細分賽道。每個細分賽道裡都有許多創新企業在相互較量,這也是當前風險投資機構最熱衷投資的環節。
產業中游的演算法模型是生成式AI最核心的環節,是機器完成教育訓練過程的關鍵環節。中游演算法模型包括三類重要的參與者:人工智慧實驗室、集團科技研究院和開源社區。
開源社區
開源社區對生成式AI的發展十分重要,因為它提供了一個平臺,讓開發人員能夠共用他們的程式碼,分享他們最新的研究成果,並與其他人一起協作,共同推動生成式AI相關技術的發展進步。除了可以讓研究人員彼此充分學習交流外,開源社區還可以幫助開發者更快地開發出人工智慧相關應用。建造各個場景下的人工智慧應用系統就像建造一棟棟大樓,往往需要很多人的共同努力。而開源社區就像是工地上的交流中心,讓所有參與建造的人都能夠找到合適的工具和材料,並與其他人交流想法,共同完成建造工作。如果沒有交流中心,大樓的建造將會變得困難重重,甚至無法完成。同樣,如果沒有開源社區,人工智慧的發展也會面臨諸多困難。因此,開源社區對於人工智慧的重要性不言而喻。
根據開源社區所覆蓋領域的寬度和深度,可以將開源社區分為兩類:綜合型開源社區和垂直型開源社區。
1. 綜合型開源社區
GitHub是世界上最大的開源程式碼託管平臺,目前已有超過9,000萬的活躍帳戶和1.9億資料庫。作為開源玩家界的Facebook,GitHub是開發者與朋友、同事、同學及陌生人共用原始程式碼的完美場所,無論是人工智慧領域相關的程式碼,還是其他領域的程式碼都可以在這裡上傳共用。