8月25日上午,語音及語言信息處理國家工程研究中心與人文與社會科學學院心理學系在南區三樓317會議室召開科研合作交流研討會。語音及語言信息處理國家工程研究中心副主任凌震華、科大訊飛研究院杰出科學家潘嘉、心理學系執行主任孔燕、心理學系全體教職工參加會議。會議由心理學系主任助理何曉松主持。
凌震華介紹今年在人工智能領域內發表的關于語音以及語言的預訓練模型與功能磁共振、近紅外等腦科學設備所觀測的數據之間的關系的預印本。其中,語言和語音中的深度神經網絡的預訓練模型中的低層與大腦中的低級腦區如聽覺皮層的激活相關,而預訓練模型中的高層與大腦中的高級腦區如額下回的激活相關。凌震華進一步介紹語音合成質量的主觀評價。盡管主觀評價有著重要優勢,但是也存在一些不足,例如需要大量的被試、大量的句子,被試不認真答題,不同指標間的耦合程度高、系統間差異的分辨能力有限以及測試結果依賴對比系統等問題。心理學系碩士生陳鈺璨調研大量文獻,分享語言加工的神經基礎。陳鈺璨介紹與大自然的聲音,比如汽車聲、風聲相比,人類的聲音能夠激活顳葉皮層。語音中的音調能夠激活前側顳葉皮層。語法和語義能夠激活后下側顳葉以及額下回。語音中所傳達的情緒,例如快樂、憤怒,能夠激活右側杏仁核、左側中央后回以及內側額葉。這說明大腦對語言和語音的各個方面進行豐富表征。
雙方圍繞自然與合成語音在AI模型和大腦神經活動上的表征、以及合成語音的評估指標優化等方面進行深入的交流和討論。科大訊飛研究院杰出科學家潘嘉提到研究過程中的視覺和聽覺多模態信息的解析處理問題。心理學系主任助理何曉松認為,由于人腦工作記憶空間的局限性,在接受多媒體聲學和視覺信息過程中,無法同時無損解析所有通道的信息。例如,人將注意力集中于聽覺信息時,可能會降低對視覺信息的處理;而機器卻能夠無損的解析和捕捉所有的信息。心理學系執行主任孔燕補充道,人腦可能會通過注意調控,對信息進行選擇性處理,可以不局限于單獨注意聽覺或者單獨注意視覺,因此這種全通道和選擇性處理的平衡可能是優化多模態信息整合模型的抓手。心理學系副主任張效初總結到,人工智能和神經的結合,應該是一個閉環的過程:人工智能要能在神經上產生激活以及神經上的激活要能夠為人工智能的參數優化提供依據。
通過今天的研討會,參會人員對語音人工智能的發展和認知神經心理學的研究方法有了深入的了解,形成了數個創新并且應用潛力強的合作點。今后,雙方將保持緊密的合作關系,推動項目的進程。
(文:查汝晶 / 圖:劉云杰)