一种面向非平衡数据的多簇IB算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:cjian024156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息瓶颈(Information Bottleneck,IB)方法在处理非平衡数据集时,倾向于将大簇中的数据对象划分到数据规模较小的小簇中,造成了聚类效果不理想的问题。针对该问题,提出了一种面向非平衡数据的多簇信息瓶颈算法(McIB)。McIB算法采用向下抽样方法来降低非平衡数据集的倾斜度,使用先划分再学习后合并的策略来优化IB算法处理非平衡数据的合并抽取过程。整个算法包含3步:首先根据分离标准来确定抽样比例参数;然后对数据进行初步的聚类,生成可信赖的多个簇;最后再利用簇之间的相似性对簇进行合并,组织多个
其他文献
随着数据业务快速增长,仅靠宏蜂窝网络已无法满足流量需求;飞蜂窝网络可以有效分流宏蜂窝流量,近年来所构成的Macro-Femto架构得到了较广泛的部署。Macro-Femto网络部署的关
作为解决信息过载问题的有效方式,推荐系统能够根据用户偏好对海量信息进行过滤,为用户提供个性化的推荐。对如何利用隐式反馈数据进行个性化推荐进行了研究,提出了一种融合上下文信息和用户社交信息的隐式反馈推荐模型(Implicit Feedback Recommendation Model Fusing Context-aware and Social Network Process,IFCSP)。首先从