微軟在正式推出.NET 7之後,現在更新其跨平臺針對.NET應用程式的機器學習框架ML.NET ,現在發布最新版本2.0,這個版本更新重點包括文字分類和語句相似度API,並且改進自動化機器學習功能。

ML.NET 2.0可以更好地支援文字分類場景,其提供的文字分類API可供用戶訓練模型,以分類文字資料。開發者透過模型建置器(Model Builder),就能使用微軟的預訓練模型,並以文字分類API及資料來微調模型。

微軟提到,該自定義文字分類模型,是由微軟研究院以最新深度學習技術訓練而成。該文字分類功能支援CPU和GPU在本地端進行訓練,而在GPU的規格上,除了需要能夠與CUDA相容外,也建議至少擁有6 GB專用記憶體。

ML.NET 2.0還加入了語句相似度API,該API與文字分類API底層使用相同TorchSharp NAS-BERT模型,差異在於語句相似度API,提供兩個語句的相似度數值,而非預測類別。

由於要啟用文字分類和語句相似度等自然語言處理功能,ML.NET需要一種能夠處理文字資料的方法,而這通常需要使用到Tokenizer技術,微軟使用英文Roberta模型來實作Tokenizer,而微軟也在Microsoft.ML.Tokenizers NuGet套件中,發布ML.NET內的Tokenizer API,開發者便可以使用該套件來匯入自定義詞彙表,並使用BPE Tokenizer來處理文字資料。

另外,微軟也改進自動化機器學習(AutoML)功能,AutoML能夠自動化機器學習應用資料的過程,支援開發者在模型建置器和ML.NET CLI的開發體驗。在ML.NET 2.0中,微軟將AutoML實作加入dotnet/machinelearning儲存庫中,並且添加更多功能,使開發者能夠更簡單地開發機器學習應用,並且找出最佳參數。

熱門新聞

Advertisement