每日經濟新聞 2023-04-03 08:45:15
每經AI快訊,有投資者在投資者互動平臺提問:請問中文語料和貴公司的AI訓練數據集是一種東西嗎? 如果不是的話,可以給我們科普下中文語料和訓練數據分別是什么?分別用在訓練大模型的那個階段?
海天瑞聲(688787.SH)4月3日在投資者互動平臺表示,按照我們理解,您提到的“中文語料”可能指的是大模型預訓練階段使用的未經標注的原始中文文本數據,大模型通過對大量的原始文本數據的學習來完成預訓練階段的基礎能力訓練,該類數據服務本就是公司業務類型范疇內的一種;此外,公司現階段更主要的業務內容是進行更高質量、更具規模化的訓練數據生產,即在前述原始數據基礎上進行一系列的工程化、結構化人類加工反饋(包括但不限于清洗、標注等),使其成為更高濃度、更容易被算法理解的結構化訓練數據,廣義上的訓練數據可應用于大模型訓練的各類環節,尤其是在對于大模型更為重要的強化學習以及垂向拓展等環節。 未來,公司也將緊密跟隨大模型等新技術的發展,及時更新公司數據服務能力、及相關業務形態,更好助力相關領域客戶的發展。
(記者 張喜威)
免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前核實。據此操作,風險自擔。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP