微軟釋出跨平臺機器學習框架ML.NET 2.0，改善文字處理與AutoML功能

微軟在正式推出.NET 7之後，現在更新其跨平臺針對.NET應用程式的機器學習框架ML.NET ，現在發布最新版本2.0，這個版本更新重點包括文字分類和語句相似度API，並且改進自動化機器學習功能。

ML.NET 2.0可以更好地支援文字分類場景，其提供的文字分類API可供用戶訓練模型，以分類文字資料。開發者透過模型建置器（Model Builder），就能使用微軟的預訓練模型，並以文字分類API及資料來微調模型。

微軟提到，該自定義文字分類模型，是由微軟研究院以最新深度學習技術訓練而成。該文字分類功能支援CPU和GPU在本地端進行訓練，而在GPU的規格上，除了需要能夠與CUDA相容外，也建議至少擁有6 GB專用記憶體。

ML.NET 2.0還加入了語句相似度API，該API與文字分類API底層使用相同TorchSharp NAS-BERT模型，差異在於語句相似度API，提供兩個語句的相似度數值，而非預測類別。

由於要啟用文字分類和語句相似度等自然語言處理功能，ML.NET需要一種能夠處理文字資料的方法，而這通常需要使用到Tokenizer技術，微軟使用英文Roberta模型來實作Tokenizer，而微軟也在Microsoft.ML.Tokenizers NuGet套件中，發布ML.NET內的Tokenizer API，開發者便可以使用該套件來匯入自定義詞彙表，並使用BPE Tokenizer來處理文字資料。

另外，微軟也改進自動化機器學習（AutoML）功能，AutoML能夠自動化機器學習應用資料的過程，支援開發者在模型建置器和ML.NET CLI的開發體驗。在ML.NET 2.0中，微軟將AutoML實作加入dotnet/machinelearning儲存庫中，並且添加更多功能，使開發者能夠更簡單地開發機器學習應用，並且找出最佳參數。

熱門新聞