浅谈基于内容管理系统中内容分类实现方法的研究
来源:岁月联盟
时间:2014-06-01
前馈型网络,由于Kohonen自组织特征映射网络除了具备以下主要性能,因此采用Kohonen自组织神经网络来实现内容的聚类。①对输入数据有聚类作用,并可用聚类中心代表原输入,起到数据压缩作用。②保持拓扑有序性,输入中特性相似的点映射后在空间上是邻近的。③分布密度匹配,原数据中分布密的区域在映射图上对应较大的区域,分布稀的则对应的区域也较小。
自组织网络采用没有指导的学习过程,不必给定应有的输出,训练数据只有输入而没有输出,网络只靠输入模式本身的特征,根据一定的判断标准自行修改单元连接的强度,使权矢量在输入向量空间中的分布近似于样本的分布。这也就是为什么采用自组织神经网络来解决内容的分类问题的原因和依据,因为在对内容进行聚类前,可以分成什么样的类以及不同的内容归属的类别本来就是未知的。
3 实现的步骤及方法
在此研究一种利用智能技术得到内容的分类结构的方法。该方法通过人或统计工具对文本内容进行预处理,将文本内容以标准化的特征向量表示,然后利用Kohonen自组织特征映射网络实现内容的自动聚类。现将对文本内容进行聚类的方法与步骤简单描述如下:
3.1 用标准的矢量形式表示文本内容。要实现内容的自动聚类,首先要把待聚类的内容集用标准的矢量形式表示出来。由于给不同的文本内容建立关键字是可行的,而且关键字又是最易于代表文本内容语义的,因此可以通过文本内容的关键字作为中间桥梁将内容表示成标准的矢量形式。用标准的矢量形式表示文本内容,这是利用神经网络实现内容的自动聚类的基础。
3.2 选择样本文档。Kohonen网络采用的是无监督学习算法,因此在通过该网络对内容进行聚类前需要选择样本内容作为训练集,使自组织网络学习如何对内容进行聚类。样本的选择应当具有代表性与广泛性。
3.3 初始化网络的输入节点、输出节点以及连接权值。将以n个关键字或文本特征表示文本内容的n维矢量作为输入向量,同时生成含有m个输出节点的二维映射。
3.4 将代表文本内容的特征向量输入到网络中。
3.5 在输出节点中选择最佳匹配节点。计算输入节点与所有的输出节点权值的接近程度,选择距离最小,即输出节 点权值与输入值最接近的节点作为获胜节点。
3.6 调整权值。调整获胜节点及其邻域的节点的权值,从而使这些输出节点的权值与输入值更接近。
3.7 标注代表不同类的输出节点。不断重复以上过程,学习算法结束后,各输出节点的权值显示了聚类中心,将不同的类加以标注,以示区分。经过训练的网络可以用上述同样的方法对新的文本内容进行聚类。
3.8 对分类结果中包含大量输入样本的类别,递归应用以上步骤,继续在大类下划分更小的类。
经过以上过程便可以得到文本内容的分类结构,该分类结构可能是类与类之间相互独立的结构,也可能是层次结构。基于这种由智能聚类得到的分类结构,我们便可以利用经过训练的网络用同样的方法实现对不同文本内容的分类。
参考文献:
[1]朱爱华.基于语义网格的内容管理系统[J].广播与电视技术.2009.(01).
[2]薛勤,何险峰.内容分类与元数据在内容管理系统中的应用[J].四川气象.2007.(04)