8月13日,数据挖掘领域知名学者,美国Rutgers大学管理科学与信息工程系熊辉教授应邀访问极悦注册模式识别国家重点实验室并作题为“序列数据的时间骨架模型:模式,分类与可视化”的学术报告。
报告中,熊辉教授首先和大家分享了自己的求学经历以及为什么把数据挖掘当作自己主要的研究方向。熊教授鼓励大家能够抓住机遇,并懂得顺势而为。针对大数据领域的研究,熊教授认为现在是需要学科交叉的时代,要想在大数据领域有所作为,必须要培养同时具有技术知识和领域知识的跨界人才。此外,熊教授形象地把数据科学家比作医生,需要结合各种科学技术手段,针对不同数据的特异性和多样性,问题的复杂程度,进而做出研判并对症下药来解决问题。
此次报告的主要内容来源于熊辉教授课题组发表于数据挖掘顶级会议KDD 2014的最新研究成果。传统的序列数据挖掘方法旨在找到序列数据统计上相关的时序结构,但是随着实际数据规模的快速增长,其海量繁杂和异质多源的特性使得用来刻画序列数据的属性维度越来越高,从而对序列数据的建模方法与效率提出了严峻的挑战。为此,熊辉教授的课题组提出了一种时序骨架模型,在保证结构相关信息损失最小的情况下有效地降低了原始序列数据的维度,进而揭示了数据的隐含多层时序结构。通过把时序上的相关性描述成无向图并提取其时序骨架,算法可以更有效地找到隐含在复杂原始数据中的时序模式。事实上,图的嵌入拓扑空间相当于把丰富的时序内容转换为一种度量空间来刻画不同时序数据的相关性。熊教授课题组提出的此种方法在B2B的商业应用中取得了良好的评估效果,可以从繁杂的市场数据中更加有效地挖掘出关键的用户购买习惯与行为,成为商业大数据领域的一个典型应用案例。
报告后,熊教授和与会的各位师生进行了深入的讨论与交流,为报告中提出的模型与方法做出进一步的补充与概括。同时,熊教授也分享了他对如何界定大数据以及数据挖据与中国古典哲学思想的一些联系的看法