• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁 > 新聞 > 專家觀點(diǎn) >

    App主流反垃圾服務(wù)難點(diǎn)和技術(shù)實(shí)現(xiàn)全解析

    2016-03-24 10:56:25   作者:環(huán)信聯(lián)合創(chuàng)始人 馬曉宇   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


      在近期做的一項(xiàng)2015年App統(tǒng)計(jì)中,以微信為首的社交類App占據(jù)了排行榜第一位,新聞?lì)怉pp位居第二,可見人們對(duì)社交的需求大過了獲取新聞資訊的需求。在馬斯洛需求層次理論中,社交需求僅次于生理需求和安全需求,位居第三,可見社交的重要性,恐怕這也是流行的那句話“無社交、不App”的真實(shí)本源。
    環(huán)信聯(lián)合創(chuàng)始人 馬曉宇
    環(huán)信聯(lián)合創(chuàng)始人 馬曉宇
      App開發(fā)者想方設(shè)法在App里集成IM功能,鼓勵(lì)用戶溝通、互動(dòng)、分享。但在享受用戶量迅速上漲的同時(shí),卻也面臨著不小的麻煩——垃圾信息。用戶數(shù)量上來后,各種廣告、釣魚、色情等垃圾信息也不請(qǐng)自來。影響用戶體驗(yàn)不說,一旦涉及到政治類信息,甚至?xí)oApp帶來下架的風(fēng)險(xiǎn),這實(shí)際上已經(jīng)有過前車之鑒。即使是過百萬用戶量,由于沒有即時(shí)采取措施遏制垃圾信息泛濫,最終導(dǎo)致被用戶拋棄的App也已是不乏其數(shù)了。有人對(duì)此總結(jié)了一句話:“始于約炮,發(fā)展于炫耀,終結(jié)于代購”。
      App植入IM功能是大勢(shì)所需,關(guān)鍵在于,如何有效過濾各種垃圾消息,讓App滿足用戶真正的社交需求。
      垃圾消息分類與偽裝術(shù)
      “知己知彼,百戰(zhàn)不殆”,我們先了解一下當(dāng)前IM軟件上垃圾信息的特點(diǎn)。
      從內(nèi)容上來看,垃圾信息通常分成這么幾類:
      廣告類:用于推銷商品、網(wǎng)站、店鋪等,例如減肥藥、化妝品、四六級(jí)答案等;
      環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務(wù)難點(diǎn)和技術(shù)實(shí)現(xiàn)全解析
      釣魚類:通過發(fā)布一些虛假信息,誘使人們點(diǎn)擊或是回復(fù),從而一步步陷入騙局;
      環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務(wù)難點(diǎn)和技術(shù)實(shí)現(xiàn)全解析
      色情類:用于色情交易或事色情網(wǎng)站宣傳等;
      環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務(wù)難點(diǎn)和技術(shù)實(shí)現(xiàn)全解析
      SEO類:通過讓用戶點(diǎn)擊提高小網(wǎng)站的搜索排名;
      政治類:例如境外勢(shì)力支持下的對(duì)重大事件的負(fù)面輿論。這類信息風(fēng)險(xiǎn)極大,一旦廣為擴(kuò)散極有可能造成App被下架。
      對(duì)于簡單的垃圾信息,管理員只要設(shè)置好關(guān)鍵字過濾即可。但發(fā)送者為了逃避攔截,通常都會(huì)對(duì)垃圾信息進(jìn)行偽裝,幾種典型的偽裝術(shù):
    • 不相關(guān)內(nèi)容+垃圾內(nèi)容。例如在四、六級(jí)或考研季來臨時(shí),常常會(huì)收到這種垃圾消息:“白日依山盡,黃河入海流。考研答案,聯(lián)系QQ******”。前半句“白日依山盡,黃河入海流”即為干擾項(xiàng)。
    • 添加隨機(jī)噪聲,包括文字變換,隨機(jī)字母,不同字體等。例如,“QQ群”改寫成“藤訓(xùn)裙”、“叩叩裙”等,或者同時(shí)使用符號(hào)、文字變換:
    • 使用多媒體技術(shù),例如使用圖片或者音視頻來封裝廣告。
      垃圾信息檢測(cè)技術(shù)
      從垃圾消息的偽裝技術(shù)來看,僅依靠傳統(tǒng)關(guān)鍵字過濾顯然是無效的,必須另辟蹊徑。目前在學(xué)術(shù)界和業(yè)界的幾個(gè)研究方向:
      1. antispam_based_user_keyword,基于敏感詞的模糊匹配技術(shù)。
      這項(xiàng)技術(shù)的核心是實(shí)用雙數(shù)組字典樹算法進(jìn)行關(guān)鍵詞的查詢。首先服務(wù)會(huì)對(duì)輸入的內(nèi)容先進(jìn)行簡繁體、全半角、火星文、同義詞、特殊字符過濾等一系列預(yù)處理。然后進(jìn)行高效的關(guān)鍵詞查詢,主要功能點(diǎn):
      基于基本詞庫進(jìn)行過濾(如政治、色情、暴力等),同時(shí)支持用戶自定義詞庫;
      大小寫模糊匹配;
      將需要屏蔽的關(guān)鍵詞替換為通配符(如星號(hào)*);
      2. antispam_based_user_behavior,基于用戶行為檢測(cè)
      基于用戶行為的反垃圾算法的核心是使用聚類算法對(duì)用戶行為進(jìn)行識(shí)別,識(shí)別維度包括行為要素(如發(fā)送者、發(fā)送時(shí)間、內(nèi)容類型等等)和行為關(guān)系。所謂行為關(guān)系,是指用戶的社交屬性,例如消息發(fā)送頻率,時(shí)間間隔,消息響應(yīng)率等等。通過高效的聚類算法可實(shí)現(xiàn):
      單用戶行為識(shí)別:如單一用戶發(fā)送大量的垃圾信息;
      多用戶行為識(shí)別:大量馬甲發(fā)送大量的垃圾信息;
      識(shí)別圖片、語音、視頻等多媒體類型的垃圾信息。
      3. antispam_based_user_content,基于用戶內(nèi)容的識(shí)別
      基于內(nèi)容的反垃圾服務(wù)的核心是構(gòu)建分類器模型,采用自然語言處理技術(shù)(NLP),對(duì)內(nèi)容進(jìn)行語義分析,利用持續(xù)的機(jī)器學(xué)習(xí)與分類器訓(xùn)練,使機(jī)器能夠理解語句的真實(shí)含義。該技術(shù)可實(shí)現(xiàn):
      經(jīng)過內(nèi)容偽裝的垃圾信息。例如加入了隨機(jī)干擾內(nèi)容的垃圾信息;
      局部熱點(diǎn)聚類并攔截。通過聚類算法可識(shí)別一些特定范圍內(nèi)大量傳播的垃圾信息,通過生產(chǎn)規(guī)則遏止這些信息進(jìn)一步擴(kuò)散。
      國內(nèi)市場(chǎng)上為APP提供即時(shí)通訊能力的廠商中,目前市場(chǎng)占有率第一的環(huán)信率先將上述技術(shù)集成至其IM產(chǎn)品中,為APP提供反垃圾信息服務(wù)。可以在APP中實(shí)現(xiàn)幾種垃圾信息的攔截:
      單一用戶行為,如發(fā)送大量重復(fù)的“你好”、“hi”、可愛表情等打招呼行為,或冒充官網(wǎng)人員發(fā)送惡意鏈接、營銷廣告、色情信息等,這種類型的垃圾信息可基于用戶行為檢測(cè)技術(shù)+內(nèi)容檢測(cè)技術(shù),同時(shí)借助NLP及訓(xùn)練模型對(duì)內(nèi)容進(jìn)行識(shí)別和攔截,緊急情況下可使用敏感詞進(jìn)行攔截。
      多用戶行為。例如垃圾信息發(fā)送者擁有馬甲庫,切換不同馬甲來進(jìn)行垃圾信息發(fā)送,甚至展開小型DDoS攻擊,此類可基于全局用戶行為檢測(cè)技術(shù),以及全局消息內(nèi)容聚合進(jìn)行識(shí)別和攔截;
      高級(jí)形式的垃圾信息。如“目的內(nèi)容+隨機(jī)干擾”,這種形式的垃圾信息可通過局部聚類檢測(cè)技術(shù)對(duì)熱詞進(jìn)行識(shí)別,同時(shí)結(jié)合語義分析技術(shù)進(jìn)行識(shí)別攔截;
      對(duì)于內(nèi)容完全隨機(jī)的垃圾信息,可以采用發(fā)送頻率限制技術(shù)增加發(fā)送者的成本,讓他們趨于正常用戶的行為,削減影響。
    \
    環(huán)信反垃圾技術(shù)流程圖
      從在APP中實(shí)際部署的效果來看是非常明顯的,過濾率基本在99%左右。下圖是在環(huán)信產(chǎn)品后臺(tái)看到的實(shí)際攔截效果,分別是基于行為的攔截和基于內(nèi)容的攔截。
    \
    基于行為的垃圾信息攔截
    \
    基于用戶內(nèi)容的垃圾信息攔截
      反垃圾信息服務(wù)是一項(xiàng)“長期斗爭”,除了技術(shù)手段外,還可以采取一些管理手段。例如,注冊(cè)時(shí)要求綁定手機(jī)號(hào),而非郵箱號(hào)。設(shè)置舉報(bào)機(jī)制和拉黑功能等等,從而提升垃圾消息發(fā)送者的成本。通過技術(shù)手段,再輔以管理手段,必將遏止App中的垃圾消息,打造一個(gè)健康的網(wǎng)絡(luò)社交環(huán)境。
      作者簡介:
      馬曉宇,環(huán)信聯(lián)合創(chuàng)始人,擁有17年研發(fā)經(jīng)驗(yàn),先后任職于Symbian、Nokia,帶領(lǐng)團(tuán)隊(duì)主持開發(fā)了數(shù)款Nokia手機(jī)的操作系統(tǒng)及內(nèi)核軟件,手機(jī)操作系統(tǒng),手機(jī)應(yīng)用軟件專家。

    相關(guān)熱詞搜索: 環(huán)信

    上一篇:“過氣網(wǎng)紅”BYOD的逆襲之旅

    下一篇:最后一頁

    分享到: 收藏

    專題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 无极县| 称多县| 西城区| 绥化市| 界首市| 大悟县| 新民市| 美姑县| 平乡县| 静海县| 潢川县| 盐源县| 清涧县| 沛县| 泗水县| 水城县| 广宁县| 扶绥县| 韶山市| 阳信县| 右玉县| 福海县| 澎湖县| 黄大仙区| 关岭| 贺兰县| 富宁县| 邯郸市| 托里县| 姜堰市| 铜梁县| 建平县| 呈贡县| 穆棱市| 宁陕县| 武平县| 图木舒克市| 庆安县| 慈利县| 广西| 温泉县| http://444 http://444 http://444 http://444 http://444 http://444