锦州上搜狗首页推广公司【易商网络】
可将特殊规则匹配算法设为具有***优先级,一旦符合某条规则后就采用 特殊规则匹配算法的结论。在不符合任何规则的前提下,为svm算法、bayes算法、随机森林 算法赋予不同的权重Wl、W2、W3。若一个互联网网站的最终文本集用svm算法被分为A类 另IJ,用bayes算法和随机森林算法均被分为B类别。若WDW2+W3,则该互联网网站被分为 A类别;若W1〈W2+W3,则该互联网网站被分为B类别;若W1=W2+W3,则交由人工判定。
并不用于限定本申请。对于本领域的技术人员来 说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同 替换、改进等,均应包含在本申请的保护范围之内。
Hide Dependent
1. 一种互联网数据分析系统,其特征是,包括: 数据预处理模块,从互联网的网页信息中提取其主要内容,过滤而得到每个网页对应 的文本;对获取的文本首先由分词器得到多个分词,再经过特征值降维仅保留突出该文本 特征的分词; 数据分析模块,根据分析要求,从分类算法、聚类算法、关联规则算法、特殊规则算法这 四类算法中选择相应的一类对多类算法,每类算法中采用一种或多种算法,对所述数据预 处理模块输出的每个网页所对应的经过降维后的分词各自独立地进行处理,并存储分析结 果。
2. 根据权利要求1所述的互联网数据分析系统,其特征是,所述分词器包括ansj分词 器、_seg j分词器、lucene分词器中的一种或多种。
3. 根据权利要求1所述的互联网数据分析系统,其特征是,所述特征值降维采用 tf-idf算法、权重计算的一种或多种。
. 根据权利要求1所述的互联网数据分析系统,其特征是,所述分类算法包括svm算 法、贝叶斯算法、随机森林算法。
5. 根据权利要求1所述的互联网数据分析系统,其特征是,所述聚类算法包括k-means 算法。
6. 根据权利要求1所述的互联网数据分析系统,其特征是,当所述数据分析模块采用 多种算法处理时,当分析结果不一致,则根据各种算法的权重判断分析结果的权重,并采纳 权重较大的分析结果。
对于{产品来说,}然后在获取到的二跳点击日志中,确定出包含上述推广信息的标识(refPID)以及获得的业务信息的标识(PID)的二跳访问记录,即:统计有哪些二跳访问记录中既包含上述推广信息的标识(refPID),还包含获得的业务信息的标识(PID),针对确定出的每个二跳访问记录,分别根据该二跳访问记录中包含的业务标识,在业务标识和费用信息之间的对应关系中,查找该业务标识对应的费用信息,从而得到了二跳访问记录对应的二跳访问的费用信息,即:针对此次二跳访问需收取卖方用户的费用信息。[如图所示,为本申请实施例二中确定第一网站和第二网站针对推广信息的收益比例的原理示意图,如图所示,为本申请实施例二中第一网站针对用户的点击进行引流的原理示意图。
对于产品来说,将该用户的访问重定向到与用户点击的业务信息对应的业务网页中,用户的网页将该业务网页呈现给用户。[通过点击的此次重定向,从而可以进一步将浏览第二网站的用户成功引流到具体的业务网页中。[步骤,点击生成此次点击操作对应的访问记录(称为二跳访问记录),并将生成的二跳访问记录保存到二跳点击日志中,跳转生成的二跳访问记录中包含有用户点击的业务信息的标识(PID)、推广网页对应的推广信息的标识(refPID)、该业务网页对应的业务标识。[本申请实施例一中的二跳点击日志可以但不限于如表二所示。[二跳访问记录中还可以包含此次点击操作对应的时间信息。[其中,推广信息的标识(refPID)用以表明此次二跳访问的第二网站来源。
后续通过点击所述推广网页中的业务信息而被点击重定向到对应的业务网页的二跳访问的次数,具体包括:获得归属于所述推广网页的各业务信息的标识;统计获取到的二跳点击日志中包含需要确定引流质量的推广信息的标识以及获得的业务信息的标识的二跳访问记录的数目;将统计出的二跳访问记录的数目,确认为所述规定时间段内,通过点击所述推广信息而被跳转重定向到对应的推广网页的一跳访问中,后续通过点击所述推广网页中的业务信息而被点击重定向到对应的业务网页的二跳访问的次数。.如权利要求所述的方法,其特征在于,根据确定出的二跳访问率,确定所述推广信息的引流质量,具体包括:在预设的各引流质量分别对应的二跳访问率区间中,查找确定出的二跳访问率所处的二跳访问率区间;