Quantcast
Channel: 工程師 – TechOrange
Viewing all articles
Browse latest Browse all 585

LinkedIn 如何透過機器學習,建造世界最強的「求職推薦系統」?

$
0
0

【為什麼我們要挑選這篇文章】LinkedIn 找工作平台,已經成為美國年輕人另類的社交平台,就算沒有在找工作,還是會習慣性上去刷一下,了解職場趨勢,而 LinkedIn 的人性化設計是成功關鍵,背後的人工智慧技術更是功不可沒。

所以 LinkedIn 人工智慧研發總監張梁才表示,人工智慧於 LinkedIn 而言是氧氣般的存在,是所有用戶體驗的 DNA,貫穿其社交聯繫、職位推薦等應用。下文來了解  LinkedIn 是如何運用「氧氣」般重要的人工智慧!(責任編輯:黃穗懷)

「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 >> 詳細職缺訊息
快將你的履歷自傳寄至 jobs@fusionmedium.com」

LinkedIn 是迄今為止市面上極受歡迎的招聘平臺之一。來自世界各地的招聘者每天會從 LinkedIn 上網羅挑選適合他們招人崗位的候選人。

像 LinkedIn Recruiter 這款產品,就可以説明招聘者創建並管理一個人才庫,最大限度地提高徵人成功率。這款產品的高效性能是通過一系列極其複雜的搜索和推薦演算法來實現的,這些演算法利用了最先進的機器學習架構,也考量了很多實際因素。

除了在構建一個世界上最有價值的資料集之外,LinkedIn 一直在通過各種實驗來突破機器學習技術,希望把人工智慧的一流體驗帶入 LinkedIn 產品中。

LinkedIn 以三大標準建立搜尋推薦模型

招聘產品的推薦功能對 LinkedIn 的機器學習技術提出了很大的挑戰。除了處理龐大且不斷增長的資料集,招聘產品還需要處理很多隨機且複雜的查詢和篩選需求,並提供與之非常相關的結果。搜索環境是如此多變,以至於很難將這個問題簡單轉換為機器學習的模型來解決。以招聘產品為例,LinkedIn 使用了一個包含三個因素的標準來描述搜索推薦模型需要實現的目標。

1.關聯: 搜索結果不僅需要返回給相關的候選人,還需要顯示可能對目標職位感興趣的候選人。

2.智能查詢: 搜索結果不僅應該返回匹配特定條件的候選人,還應該返回相近條件的候選人。例如,搜索機器學習應該返回在技能集中列出資料科學的候選人。

3.個性化: 通常,為一家公司尋找到理想候選人考慮的因素並不在搜索條件裡。還有些時候,招聘人員也不確定使用什麼標準。個性化搜索結果是任何成功的搜索和推薦體驗的關鍵因素。

LinkedIn 招聘產品搜索和推薦體驗的第四個關鍵標準不像前三個標準那麼明顯,它關注的是簡單的衡量指標 。為了簡化推薦體驗,LinkedIn 對一系列關鍵指標進行了建模,這些指標是成功招聘的有效指標。例如,站內信閱讀數量似乎是判斷搜索和推薦過程有效性的一個明確指標。從這個角度來看,LinkedIn 將這些資料作為衡量其機器學習演算法優化程度的關鍵指標。

優化目標:接收到的站內信數量。從招聘者開始 1、搜索 2、發站內信到候選人 ,然後候選人 3、接受閱讀並回饋給招聘者

線性回歸上加入梯度增強決策樹,創建穩固結構

LinkedIn Recruiter 最初的搜索和推薦經驗是基於線性回歸模型。雖然線性回歸演算法很容易解釋和調試,但它們在 LinkedIn 等大型資料集中找不到非線性關聯。為了改善這種體驗,LinkedIn 決定使用梯度增強決策樹(GBDT)來將不同的模型組合成更複雜的樹結構。除了更大的假設空間外,GBDT 還具有其他一些優點,如能夠很好地處理特徵共線性、處理不同範圍的特徵以及缺少特徵值等等。

與線性回歸相比,GBDT 本身提供了一些切實的改進,但也未能解決搜索體驗的一些關鍵挑戰。有一個著名的例子,輸入搜索牙醫的請求,卻返回了具有軟體工程頭銜的候選人,因為搜索模型優先考慮尋找工作的候選人。為了改善這一點,LinkedIn 添加了一系列基於成對優化技術的上下文感知功能。從本質上講,該方法擴展了 GBDT 的兩兩排序目標,以比較相同背景下的候選人,並評估哪個候選人更適合當前的情況。

Linkedin Recuriter 瓶頸:個性化需求

Linkedin Recuriter 的另一個挑戰是,如何將應聘者與「資料科學家」和「機器學習工程師」等相關頭銜匹配起來。僅使用 GBDT 很難建立這種相關性。為了解決這個問題,LinkedIn 引入了基於網路嵌入語義相似特性的代表學習技術。在這個模型中,搜索結果將根據查詢的相關性由具有類似職位的候選人補充。

可以說,LinkedIn Recruiter 面對的最難解決的挑戰是個性化。 從概念上講,個性化可以分為兩大類。實體級個性化側重於在招聘過程中考慮進去不同參與個體的偏好,如招聘人員、合同、公司和候選人。

為了應對這一挑戰,LinkedIn 採用了一種著名的統計方法,稱為廣義線性混合(GLMix),它使用推理來改進預測問題的結果。

具體來說,LinkedIn 的招聘人員使用了一種架構,它結合了學習排名功能、樹交互功能和 GBDT 模型評分。將學習到等級的特徵作為預先訓練的 GBDT 模型的輸入,該模型生成編碼為樹交互特徵的樹集合和每個數據點的 GBDT 模型得分。然後,利用原始的學習排序特性及其以樹交互特性和 GBDT 模型評分形式的非線性轉換,廣義線性模型可以實現招聘級和合同級的個性化。

LinkedIn 招聘官所要求的另一種個性化體驗是在當前搜索環節裡的體驗升級。

利用離線學習模型的一個缺點是,當招聘人員審查推薦的候選人並提供回饋時,這些回饋是不會被採用到當前搜索環節裡的。為了解決這個問題,LinkedIn Recruiter 使用了一種被稱為「多武器強盜模型」的技術來改進不同候選人群體的推薦。體系結構首先將工作的潛在候選人劃分為技能組。然後,利用一個多武器強盜模型,根據招聘人員當前的意圖來瞭解哪一組更適合,並根據回饋更新每個技能組中的候選人排名。

架構:先海選人才,再進行候選人分序

LinkedIn Recruiter 的搜索和推薦體驗基於一個名為 Galene 的專有專案,該專案建立在 Lucene 搜索堆疊之上。上一節描述的機器學習模型有助於為搜索過程中使用的不同實體構建索引。

 

招聘人員搜索體驗的排名模型基於一個具有兩個基本層的體系結構。

L1 挖掘人才庫,並對候選人進行評分/排名。在這一層中,候選檢索和排序以分散式方式完成。
L2 改進入圍人才,以應用更多的動態功能使用外部緩存。

在該體系結構中,Galene 代理系統將搜索查詢請求分散到多個搜索索引分區。每個分區檢索匹配的文檔,並將機器學習模型應用於檢索到的候選文檔。每個分區對候選項的子集進行排序,然後代理收集排序後的候選項並將它們返回給聯邦伺服器。連接使用附加的排序功能對檢索到的候選項進行進一步排序,並將結果交付給應用程式。

LinkedIn 是大規模構建機器學習系統的公司之一。LinkedIn Recruiter 使用的推薦和搜索技術的想法與不同行業的許多類似系統有著驚人的相關性。LinkedIn 工程團隊發佈了一份詳細的幻燈片來展示他們是如何建構世界級推薦系統的。

(本文經 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈揭秘 LinkedIn!全球最大的招聘推荐系统如何被机器学习驱动?〉 。首圖來源: 大数据文摘 。)

延伸閱讀

Netflix 幕後最大功臣是 Python!工程師: 每個數據工具都靠 Python 建構
如何用 LinkedIn 開發客戶?讓達人用 3 個步驟教你
三個月拿下 6 次主管職面試機會,LinkedIn 達人告訴你怎麼用才能達成最大效益


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

Viewing all articles
Browse latest Browse all 585

Trending Articles