他介紹,國內大都模型練習運用的中文數據占比現已超越了60% ,我國現已建造高質量數據集超越3.5萬個,400PB的總量相當于我國國家圖書館數字資源總量的140倍左右)。我國日均Token(詞元)的消耗量為1千億,
下一步,各地高質量數據集累計買賣額近40億元
他介紹,國內大都模型練習運用的中文數據占比現已超越了60% ,我國現已建造高質量數據集超越3.5萬個,400PB的總量相當于我國國家圖書館數字資源總量的140倍左右)。我國日均Token(詞元)的消耗量為1千億,
下一步,各地高質量數據集累計買賣額近40億元