层次化文本分类算法的特征

目前市场上的资讯推荐产品

以资讯特征、用户特征、环境特征三点作为推荐的基础,将用户感兴趣的咨询从海量的资讯库中精准推荐给用户,形式化的描述即Y=F(资讯特征,用户特征,环境特征)。加上推荐算法及推荐效果评估分析平台,构成一整个资讯推荐系统。

1. 咨询特征

从内容的角度出发,量化咨询的各种特性,将海量资讯进行分类信息处理,以供系统进行分发:但是存在两个问题,一是状态可能不确定,无法通过明确的分类将事情细化。而标签的出现解决了了分类不能解决的问题,通过大量有规则的标签,可以细化内容。文本标签在用户推荐系统中的功能主要有三点,即用户信息建模,关心内容的推荐,生成频道内容

腾讯AI开放平台

要做到用规则化的标签准确的将资讯内容进行信息描述,需要做如下工作:

1.语义标签分层/分类:将资讯段落进行分词操作,语义标签的效果是需要依靠公司强大的NLP技术,典型的层次化文本分类算法有SVM、SVM+CNN、SVM+CNN+RNN。

2.实体词的识别:将资讯段落中获取的词,进行识别,抽取候选词,取其中有价值的词,计算其相关性。其中相关性高的词即可以很好的表示该篇资讯或资讯段落的特征。

3.关键词体系的构建:根据业务需要及其他规则,建立符合需求的关键词体系。一般关键词层次可划分为四级:根层(root)、频道层(如财经、体育、游戏)、主题(如财经下可分为A股、港股、美股、基金等)、标签词(如基金下,有博时基金、基金分红等词)。关键词层级的划分很好的解决了标签覆盖度不足及误标注(如汽车新闻中出现王者荣耀,大概率是误标注)问题。

2. 用户特征

用户特征是从用户的角度出发,通过不同维度出发构建用户画像。即通过规则化的用户标签去描述用户的特征,用户标签体系整体称为用户画像。用户标签一般是从用户兴趣特征、身份特征、行为特征进行划分。兴趣特征即用户感兴趣的主题,关键词,垂直领域(如某个用户喜欢打篮球、炒股票,则对应打上体育、篮球、财经、股票等主题及标签词);身份特征即用户的性别、年龄、职业、常驻地点等;行为特征则描述用户在特定场景下会干什么事情,比如小明喜欢晚上8点开始看电视,10点结束看电视。

通过将用户的兴趣、身份、行为记录下来,作为用户推荐的真实依据。构建一个准确完善的用户标签系统,可以大大提升资讯推荐的准确性。

3. 环境特征

环境特征描述的是在不同的大环境下,增加顺应环境的推荐内容。如在周末,可以推荐更多的轻松娱乐的资讯内容;股票牛市时,推荐更多的投资类资讯等等。更细化一层,在app判定出你在旅游时(离开常驻地点),可以推荐旅游及旅游目的地攻略的资讯。

常用的推荐算法

4. 常用的推荐算法

1.基于人口统计学的推荐

简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户。  

2.基于内容的推荐

与上面的方法相类似,只不过这次的中心转到了物品本身。使用物品本身的相似度而不是用户的相似度。

3.协同过滤

基于用户的协同过滤——基于人口统计学的推荐

基于物品的协同过滤——基于内容的推荐

4.混合推荐算法

可以看出,每个方法都不是完美的。因此实际应用中,推荐协同都是混合使用各种推荐算法,各取所长。

5. 推荐效果评估

针对于推荐效果的评估是推荐系统中相当重要的一块,通过不断的量化推荐效果,可以不断改善推荐策略的合理性。

衡量推荐准确性的数据指标:

1.正确率 = 提取出的正确信息条数 / 提取出的信息条数;

2.召回率 = 提取出的正确信息条数 / 样本中正确的信息条数;

3.F值(综合评价指标,为正确率和召回率的调和平均值)= 正确率 * 召回率 * 2 / (正确率 + 召回率)

举例:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。

那么,这些指标分别如下:正确率 = 700 / (700 + 200 + 100) = 70% 召回率 = 700 / 1400 = 50% F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%。