本文摘要:摘要:為滿足高校師生對科研資源復雜的個性化服務需求,設計了高?蒲匈Y源個性化服務系統,簡稱個性化科研服務系統(PSRSS,personalizedscientificresearchservicesystem)。全面分析了高校科研用戶的個性化科研資源服務需求,設計了基于數據層、融合多種推薦策略的推
摘要:為滿足高校師生對科研資源復雜的個性化服務需求,設計了高?蒲匈Y源個性化服務系統,簡稱個性化科研服務系統(PSRSS,personalizedscientificresearchservicesystem)。全面分析了高?蒲杏脩舻膫性化科研資源服務需求,設計了基于數據層、融合多種推薦策略的推薦計算層、應用呈現層的多引擎融合推薦系統架構;基于不同推薦場景,比較了不同的推薦算法并對選擇的算法進行了針對性優化;探討了用戶模型和科研資源模型的設計,實現了基于資源熱度、項目內容相似度、相似用戶協同過濾的Top推薦。系統提升了高校師生獲取科研資源的體驗,為高?蒲匈Y源個性化服務系統建設提供了新思路。
關鍵詞:融合推薦;個性化;推薦系統;高?蒲
高?蒲幸巡饺“大數據時代”,各種科研管理系統、科研服務平臺收集、儲存了海量的科研數據和資源文檔[1]。在信息需求越來越個性化的今天,各行業都嘗試開發并應用基于各種算法和模型的個性化推薦系統。Amazon通過在網站上使用推薦系統,對用戶的瀏覽、購買行為進行分析,進而對曾經在該網站有過瀏覽或購買行為的用戶進行個性化推薦。據VentureBeat的統計,采用個性化推薦技術,使得亞馬遜網站的銷售額提高了以上,個性化推薦技術的應用也越來越廣[23]。
高校師生在科研活動中檢索科研資源的時間,占整個科研用時的50%以上,相較其他類型用戶,個性化需求也更多樣化、更復雜[4]。目前,師生獲取科研數據和科研資源,主要還是使用基于關鍵字的信息查詢檢索方式,且國內各類科研管理系統和科研數據服務平臺的功能還較單一,無法滿足科研用戶個性化數據服務需求[5。
造成一方面科研資源信息過載,面對海量科研數據用戶卻束手無策,不能方便、快捷地獲得需要的科研資源;另一方面,用戶要清楚知道自己的資源需求并能明確表示出需求,才能使用搜索引擎查找想要的資源,F有的資源檢索或管理系統不能主動把用戶可能感興趣的科研資源推薦給用戶,使得寶貴的科研資源得不到充分利用。在大數據背景下,以某外國語大學為例,針對高校師生復雜多樣的個性化科研資源需求,探索基于融合推薦的個性化科研資源服務系統的設計。
1相關工作
1.1科研資源個性化服務需求
通過對高校科研用戶進行問卷調查,總結出師生們主要的個性化資源服務需求為:通過輸入自己的研究課題或者論文標題,獲得類似的科研項目資源,為自己的科研提供有用的幫助;獲得當前本專業相關研究方向的熱度值較高的科研資源、科研成果,進而了解當前學科的主要研究方向;了解學科同行當前所從事的研究課題、研究動態,特別是能獲得一些自己都不曾想到但又感興趣的相關資源,為自己的研究找尋參考的方向和可以借鑒的思想。
1.2融合推薦系統架構
任何單一的推薦策略都不能滿足高校用戶復雜多樣的個性化需求,因此為PSRSS設計了融合多種推薦策略的推薦系統架構,由數據層、融合推薦層、應用呈現層組成。數據層:由基礎數據和對數據的處理構成;A數據包括用戶信息數據、科研資源數據、用戶行為等源數據,科研用戶數據主要來自于包含用戶個人基本信息的人事系統數據庫;科研資源數據主要來自于科研、教改管理系統的用戶科研成果數據如科研論文、專著、專利、研究報告、科研項目等;用戶行為數據是用戶在使用PSRSS或其他科研系統時的行為日志數據。
數據處理是從業務數據庫中抽取所需數據并進行轉換、清洗、標準化、融和等預處理,為推薦引擎提供所需數據。融合推薦層:該層是個性化服務系統的核心,在數據層提供的數據基礎上,構建科研用戶特征、科研資源項目特征、用戶與項目、用戶與用戶、項目與項目間的關系特征。采用熱度推薦、基于UserCF推薦和使用IFTDF方法的基于項目內容的推薦算法,構建系統融合推薦引擎,以滿足高校科研用戶復雜多樣的個性化服務需求;該層還包括對系統召回項目進行排序和過濾的模塊[910]。應用呈現層:根據應用需要,通過不同的形式向用戶呈現推薦的結果。
2科研資源大數據處理
PSRSS要存儲和處理的數據量都是級,同時基于對數據分布式計算和高吞吐量的處理要求,系統采用Apach的Hadoop大數據技術框架對科研資源大數據進行存儲和處理,具體處理過程:建立數據列表:根據系統需求建立需要的數據列表包括數據的屬性、數據之間的關系等。建立原始數據存儲(RDS,rawdatastores)和轉換后的數據存儲(TDS,transformeddatastrores):
物理上通過在Hive上建立兩個數據庫來實現,使得所有數據都被分布存儲到HDFS上。數據抽。篟DS作為具體業務系統和PSRSS之間的過渡區,它可以避免對源系統的侵入和性能影響,并為細節數據查詢提供支持。使用Sqoop把各業務系統相關數據抽取到RDS,使用Flume從日志文件中獲取用戶從外網使用科研資源的數據。數據轉換與裝載:建立數據列表到RDS的映射,根據融合推薦系統的需要,使用HiveQL腳本對數據進行轉換和處理,包括對數據進行去重、補全、查錯糾錯、標準化等處理,將數據從RDS裝載到TDS中。
完成首次的數據抽取、轉換、裝載(ETL,Extract、Transform、Load)過程后,還需要根據系統需要定期執行數據ETL過程,比如按照每天進行一次自動化的增量數據ETL過程。 科研用戶模型和資源項目模型的構建建立科研用戶和科研資源項目之間的關聯,實現個性化推薦服務,推薦系統要經過構建科研用戶模型和科研資源模型、根據用戶特征運用不同的推薦算法對資源項目進行召回計算、向用戶呈現科研資源推薦列表這個重要步驟[1112。科研用戶模型和科研資源模型決定著PSRSS的輸出。
2.1構建科研用戶模型
在PSRSS的用戶模型中包括用戶基本信息和用戶的資源興趣模型,即用戶在使用系統和資源時的一些行為信息,PSRSS要向用戶推薦他們感興趣的各種科研資源,不僅要記錄用戶對資源項目的具體行為數據,還要記錄用戶使用PSRSS的行為數據,如用戶瀏覽某個資源項目內容的具體時長,這些行為數據將用于項目熱度和用戶興趣模型的更新。由于高?蒲杏脩粼谑褂脗性化科研服務系統時,往往只專注于所需資源項目的內容本身,他們會查詢、瀏覽閱讀、下載獲取,不太會對相應項目進行主動評價,很難獲得用戶對資源項目的顯式行為記錄。
因此,采用隱式的方式,記錄并利用用戶使用PSRSS和資源數據庫的行為日志,建立并更新用戶模型。本系統用戶模型使用20世紀70年代由GeraldSalton等提出的VSM(向量空間模型,VectorSpaceModel)表示,該模型最初用于處理文檔,通過識別并獲取文檔的個關鍵字特征以表示文檔,分別為每個特征賦予合適的權值,進而構造一個表示該文檔的特征向量。
當文檔被表示為文檔空間的向量后,就能計算不同文檔向量間的相似度并據此度量文檔間的相似性。在PSRSS中,當用戶對某個科研資源項目做出某種行為時,其行為值為,這些行為反映了用戶對資源項目的不同興趣度,賦予每種行為不同的權值,的取值為0~1且權值總和為。
2.2構建科研資源模型
采用基于資源項目內容主題模型的資源推薦策略,通過給能反映資源項目主要內容特征的主題計算權值向量,從而使用該向量計算得到資源項目間的相似度,可以比較精確地向用戶推薦其可能感興趣的科研資源。高校的主要科研資源類型有科研論文、研究報告、著作、縱向和橫向課題、專利、各種比賽成果等?紤]到進行基于科研資源項目內容推薦的需要,特別是推薦算法中引入項目時間因素的改進設計,在對科研資源進行建模時設計了包括資源項目ID、資源建立時間、資源長度、資源類型、資源內容關鍵字特征作為科研資源模型的元素。
1)type為科研資源項目的類型,在系統冷啟動階段向用戶做熱度推薦時,將根據用戶的專業、研究方向、資源類型提供初始的資源項目推薦,比如向英語學院研究英語國家文化的教師推薦相應類型的論文或其他資源。
2)duration是資源項目在系統中發布后存在的時間,反應了資源項目的新舊程度,在推薦過程中,我們要考慮時間因素對用戶興趣度的影響。
3)length為資源項目內容長度,目前主要的資源項目,其內容形式主要以文本為主,用戶閱讀瀏覽的時間和項目內容的長度,共同決定了用戶對該資源項目的興趣度。
4)為資源項目標題關鍵字列表,在進行基于項目內容的推薦時,使用TFIDF方法從資源標題計算得到該資源項目的關鍵字列表。
3算法選擇與優化
3.1算法選擇個性化推薦算法是個性化科研服務的基礎,主要的推薦算法有基于內容(contentbased)的推薦、基于協同過濾(collaborativefiltering)的推薦、基于關聯規則(associationrulebased)的推薦、基于效用(utilitybased)的推薦、基于知識(knowledgebased)的推薦和組合(hybrid)推薦等。基于內容的推薦是在項目內容信息上做出推薦,不需要用戶對項目進行顯式評價操作,可通過使用機器學習的方法從描述內容特征的事項中,獲取用戶的興趣特征并找到與用戶感興趣的相似內容向用戶推薦,可通過增加特征維度的方法來提高該算法的推薦精度。
基于內容的推薦,不需要大量的用戶項目評分記錄,可用于新建立的資源項目的推薦,解決項目冷啟動問題。協同過濾推薦算法包括基于用戶的協同過濾(UserCF)和基于項目的協同過濾(ItemCF),是一種基于近鄰的推薦算法[15]。在電商商品和圖書館資源推薦時多采用ItemCF,因為用戶在找尋這類物品時的興趣是比較穩定的,因此可以向其推薦與當前瀏覽物品相似的商品。
在PSRSS中,當要向用戶推薦有關本專業的同行當前關注的科研資源時,科研資源的時效性、專業性和熱度,比根據用戶的系統使用日志學習得到的興趣更有用;谟脩舻膮f同過濾推薦策略還能向用戶推薦可能讓其驚喜的資源項目。根據PSRSS的應用場景需要,融合推薦引擎在系統冷啟動階段,采用基于項目熱度的推薦算法,向用戶推薦相關專業和研究方向的各類熱度值較高的科研資源;在用戶有了較多的系統使用行為記錄后,選用基于用戶的協同過濾推薦算法,向用戶推薦有相似興趣的本學科專業的同行感興趣的科研資源;當用戶收藏、閱讀或下載了某項科研資源時,選用基于內容的推薦算法,向用戶推薦與其當前感興趣的資源相似的科研資源。
3.2算法優化
3.2.1項目熱度值計算
用戶剛開始使用PSRSS時,系統是無法向用戶提供個性化服務的,面臨用戶冷啟動問題,此時采用基于項目熱度的推薦算法,對科研資源基于專業學科、研究方向等基本信息進行劃分,然后按照項目熱度對科研資源進行排序,將熱度值較高項目推薦給感興趣的用戶。
當一個資源項目錄入系統數據庫后,就為其初始化一個熱度分,項目也就同時進入了推薦候選列表,不同科研資源的初始熱度分是不一樣的,可以根據資源類別并按照作者的專業水平如專業職稱等條件,賦予不同資源不同的初始熱度值。隨著資源項目不斷被用戶閱讀、收藏、下載,對應的被用戶行為影響的熱度不斷增加。還有影響資源熱度的其他因素,他們會使資源熱度降低,比如時間因素。
3.2.2項目向量化
PSRSS的主要推薦內容是非結構化的科研資源文檔,不能直接將其映射到向量空間,這些資源的標題包含了關于該資源的核心關鍵信息,能反映資源的主要內容特征,用戶也主要是利用各個資源項目的標題信息來對下一步的動作如點開閱讀、收藏、下載或者直接略過,做出決定的。利用TFIDF算法從項目標題提取出項目關鍵詞,將關鍵詞的TFIDF值作為該關鍵詞的權值,將包含項目核心特征信息的項目標題映射為表示項目的特征向量,用以計算項目之間的相似度[1617],進行基于內容的推薦。
4科研資源的Top推薦
這個階段就是在優化根據應用場景需要選擇的推薦算法基礎上,計算用戶對還沒有使用過的科研資源的興趣度,基于用戶興趣度和其他的資源特征,對待推薦資源列表按降序進行排序,將列表前面的項資源推薦給用戶。
4.1用戶冷啟動階段
這個階段,根據項目的熱度值為用戶進行推薦,使用式計算項目熱度值。可以根據作者專業職稱級別,為不同用戶設置不同的權值如:中級及以下作者權值為0.6,副高級作者權值為0.8,正高級及以上作者權值為。根據=0.2×收藏次數+0.4×閱讀次數+0.4×下載次數,計算用戶行為對項目分值的更新。
系統啟動階段,可以綜合考慮作者特征和資源特征為每類資源賦予不同的初始熱度值,系統運行后,可以結合每類資源的平均熱度值計算新建項目初始熱度值。在此基礎上,結合項目作者的權值使用式便可計算出每個資源項目的當前熱度值,根據資源類別對每類資源按熱度降序排序,將與用戶專業和研究方向相關的排名靠前的項各類資源推薦給用戶。
4.2相似資源項目推薦
文中使用Python的jieba庫作為分詞工具,對資源文檔標題進行分詞處理,在此基礎上去除停用詞,然后使用TFIDF方法計算單詞的TFIDF值,構造項目標題關鍵詞向量。當用戶對某個資源項目進行了閱讀、下載等感興趣的操作,系統便根據當前項目的關鍵詞向量,使用余弦相似度公式(11),計算其與其他該類項目的相似度,然后依據按項目相似度降序排序的結果,向用戶做Top推薦。
5系統效果評估
針對系統的融合推薦引擎,使用推薦準確率作為評價系統推薦效果的評估指標,主要以用戶使用PSRSS系統產生并存儲在用戶資源項目評分表userresitemscore數據表的數據作為實驗數據,這些數據是用戶對科研資源的各種操作記錄如內容瀏覽、下載、收藏。該表有用戶數206,資源項目數124,表項即用戶對資源項目操作數35215,將科研資源數據的80%用作訓練集,20%用作測試集并計算系統融合推薦引擎的推薦準確率。
針對基于項目熱度和基于項目內容的推薦。結果顯示,在推薦列表長度為時有較好準確率,隨著的增大,準確率逐漸下降。當較小時,基于項目熱度的推薦效果更好,這反映出科研用戶對當前熱點科研項目的關注度較高。當繼續增大后,基于內容的推薦效果更好,反映出此時科研的學科專業性及用戶對與自己當前研究內容相關的科研資源的關注度,對推薦效果有更大的影響。
6結語
文中調研了高?蒲杏脩舻目蒲匈Y源個性化服務需求,設計了融合推薦系統架構。根據應用場景選擇合適的推薦算法并進行了針對性的優化,考慮閱讀時間長短對用戶興趣度的影響,加入閱讀時間影響因子以修正用戶興趣度值的計算;建立資源項目到用戶的倒查表,解決稀疏數據的計算效率問題;在進行基于內容的推薦時,利用科研用戶的專業、研究方向等特征進行分類、排序,提高推薦的準確性;利用用戶權值和時間影響因子計算項目熱度值,并解決了系統冷啟動問題。結合多種推薦策略,構建了融合推薦引擎,提高了推薦效率和推薦準確率,為個性化科研資源服務系統的建設提供了新的參考。本研究還可進一步挖掘高?蒲杏脩舻拇髷祿Y源服務需求,優化系統架構,提高用戶推薦滿意度;為其他系統應用設計API接口,拓展向師生主動推薦科研資源的渠道。
參考文獻:
覃福鈿,李晶.大數據對高校教學研的影響與探索[J].計算機工程與科學,2019,41(S1):238241.QinFD,LiJ.Influenceandexplorationofbigdataonuniversityteachingandresearch[J].ComputerEngineering&Science,2019,41(S1):238241.(inChinese)
LindenSmithYorkJ.Amazon.comrecommendations:itemtoitemcollaborativefiltering[J].IEEEInternetComputing2003,):7680.
C.A.GomezUribeandN.HuntTheNetflixRecommendersystem:algorithms,businessvalue,andinnovation[J].ACMTransactionsonManagementInformationSystems2016,):19.
陳媛媛.高校科研數據管理服務能力研究[J].情報雜志,2020,39(6):203207.ChenYY.Onresearchdatamanagementserviceabilityofcollegesanduniversities[J].JournalofIntelligence,2020,39(6):203207.(inChinese)
劉茲恒,曾麗瑩.我國高?蒲袛祿芾砼c共享平臺調研與比較分析[J].情報資料工作,2017(6):9095.LiuZH,ZengLY.InvestigationandcomparativeanalysisofscientificresearchdatamanagementandsharingplatformofuniversitiesinChina[J].InformationandDocumentationServices,2017(6):9095.(inChinese)
作者:劉冬鄰
轉載請注明來自發表學術論文網:http://www.bj-ticket.cn/jylw/29600.html