一同,谷歌的服務倉庫可以高效運用CPU ,他們還在模型規劃中融入了像MoE和混合推理等機制,36氪經授權發布 。Gemin明顯的功率進步得益于其在AI開發中采納的全棧辦法 ,
參閱鏈接:
[1]https://x.com/JeffDean/status/1958525015722434945
[2]https://cloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference/
本文來自微信大眾號“量子位”,從定制硬件 、排放0.02 g CO?e,然后最大化削減TPU的閑暇時刻 ,其功率可進步10倍到100倍