第46章解决

    接下来的两天，肖宿几乎泡在计算机系的实验室里。
    他还在思考流形正则化的具体形式。
    社交网络的高维嵌入本质上是一组向量，这些向量应该位於某个低维流形上，这是他的直觉，但需要严格的数学证明。
    他在白板上画著示意图。
    一个高维空间，里面有一个弯曲的低维流形，数据点分布在这个流形上。
    “就像宇宙中的星系。”
    李雨薇看著示意图说，“看起来散布在三维空间，但实际上可能分布在某些二维的膜上，这是弦理论的说法对吧？”
    肖宿点头。
    他最近在读理论物理，確实看到过类似的概念。
    数学的奇妙之处就在於，不同领域的结构常常惊人地相似。
    第二天上午，他在图书馆翻阅一本关於李群表示论的专著时，突然有了灵感。
    那本书叫《李群与李代数的表示》，作者是法国数学家塞尔日·朗。
    书中有一章讲齐性空间的几何，提到每个齐性空间都可以看作某个李群模去一个闭子群的商空间。
    而在这个商空间上，李群自然地作用，给出丰富的对称性。
    肖宿盯著书中的一段话看了很久：
    “齐性空间上的几何由李群的表示理论完全决定。”
    突然之间，之前模糊的想法变得清晰起来。
    社交网络中用户的相似性关係可能构成某种近似对称性。
    如果用户a和用户b相似，用户b和用户c相似，那么用户a和用户c也应该有某种相似性。
    这不完全是对称的，但近似满足传递性。
    这种“近似对称性”可以用李群的“软”作用来描述，即允许作用有小的误差。
    如果把嵌入空间取为某个李群的齐性空间，那么嵌入向量之间的变换就可以用群元素表示，而嵌入的稳定性就对应於群作用的连续性。
    这个想法非常大胆。
    因为李群理论通常应用於理论物理和纯数学的深奥领域，很少有人把它用到算法设计这种“世俗”的问题上。
    但肖宿觉得这很自然，数学工具没有高低贵贱之分，只有適用与否。
    下午，肖宿带著这个想法回到实验室。
    赵明远和几个博士生围过来，听他解释。
    肖宿在白板上画了一个新的示意图。
    “我们要找的不是一般的低维流形。”
    “而是某个李群作用的轨道。更精確地说，是李群g模去一个闭子群h得到的齐性空间g/h。”
    他在白板上写下：
    设g是李群，h是闭子群，则齐性空间m=g/h上有一个自然的g作用：g·(xh)=(gx)h。
    “如果我们的嵌入映射f:v→m把图的节点映射到齐性空间m中，那么节点间的相似性就可以用m上的距离来度量。”
    “而这个距离在g作用下是不变的，如果两个嵌入向量相差一个群元素的作用，它们代表的节点应该具有相同的结构角色。”
    实验室里很安静，只有肖宿的笔划过白板的声音。
    几个博士生努力跟上，黄伟良偶尔点头，李雨薇皱著眉头，显然有些地方还没完全理解。
    “但实际问题中，对称性不是完全的。”
    赵明远指出，“社交网络中的关係不是完全对称的。”
    “所以要用『软』作用。”
    肖宿说，“允许群作用有误差。我们可以定义一个损失函数，包含两部分：一部分度量嵌入在齐性空间上的擬合优度，另一部分度量对称性破缺的程度。”
    他写下了一个优化问题：
    min_{f:v→m, g∈g} Σ_{v∈v} d(f(v), g·f(π(v)))2 + λ·Σ_{(u,v)∈e} |d(f(u),f(v)) - w(u,v)|
    其中d是齐性空间上的距离，π是某个节点映射，w是边的权重，λ是正则化参数。
    “这个优化问题可以用交替叠代法求解。”
    肖宿说，“固定f优化g，固定g优化f。每一步都是凸优化或者有闭式解。”
    当肖宿放下笔时，一套完整的理论框架已经呈现在白板上。
    从李群和齐性空间的定义，到嵌入模型的构建，到优化算法的设计，再到理论性质的分析。
    实验室里沉默了几秒，然后爆发出低声的议论。
    “这框架……太完整了。”
    黄伟良喃喃道，“从数学基础到算法实现，一气呵成。”
    “我需要时间消化。”
    李雨薇诚实地说，“李群作用、齐性空间、软对称性……这些概念我得回去查资料。”
    赵明远则更务实：“现在需要验证。肖宿，你估计实现这个算法需要多少行代码？”
    肖宿想了想。
    “核心算法大概五百行。但需要一些李群运算的库，指数映射、对数映射、测地线计算这些。”
    “我们有现成的。”
    赵明远说，“实验室之前做过一些流形优化的项目，积累了不少代码。我马上组织人开始实现。”
    接下来的两个小时，实验室进入了高效的工作状態。
    赵明远分配任务，黄伟良负责实现李群运算的核心模块，李雨薇负责编写优化算法，另外两个博士生负责准备测试数据和设计实验。
    肖宿则坐在白板前，隨时解答问题，或者补充一些数学细节。
    键盘敲击声密集而规律，像是一场数字世界的交响乐。
    肖宿看著实验室里忙碌的眾人，突然有一种陌生的感觉。
    他不再是独自思考，而是成为了一个团队的一部分。
    这种感觉很奇怪，但不令人討厌。
    三小时后，第一版代码写好了。
    “跑个小数据集试试。”
    赵明远说，声音里带著紧张和期待。
    程序开始运行。
    屏幕上滚过一行行日誌信息，显示著叠代次数、损失函数值、收敛情况。
    所有人的目光都盯著屏幕，实验室里安静得能听到伺服器风扇的嗡嗡声。
    五分钟后，程序运行完毕。
    赵明远深吸一口气，点开结果文件。
    空气凝固了。
    “准確率提升了42%……”
    赵明远盯著屏幕，声音有些发颤，“而且运行时间还减少了30%。”
    李雨薇凑过去看详细数据，倒抽一口冷气：
    “这不是改进，这是革新啊！在推特数据集上，社区发现的准確率从71%提升到了89%，这已经超过人类標註员的水平了！”
    实验室里爆发出欢呼声。
    黄伟良和另一个博士生击掌庆祝，有人甚至跳了起来。
    他们被这个问题折磨了一个月，试了无数方法，进展微乎其微，现在终於看到了突破性的进展，不是百分之几的改进，而是质的飞跃。
    赵明远转向肖宿，眼中满是敬佩：
    “肖宿，你这篇论文投出去，肯定是sigcomm或者tois级別的。”
    sigcomm是计算机网络领域的顶级会议，被誉为“网络领域的奥斯卡”，录取率常年低於20%。
    一篇sigcomm论文足以让一个博士生在学术界立足。
    tois则是acm信息系统汇刊，是信息检索、推荐系统、社交网络分析领域的旗舰期刊，影响因子高达6.7。
    肖宿对期刊名字不敏感，只是点点头：“那就投吧。”
    “你是第一作者。”
    赵明远认真地说，“我们只是做了实现和实验部分。这个想法的核心完全是你的。”
    “大家一起。”肖宿说得很自然。
    在他看来，解决问题是最重要的，署名顺序是次要的。
    而且赵明远他们的实现工作也很重要，再好的数学想法，如果不能高效实现，也只是纸上谈兵。
    这种態度让实验室里的人更加感动。
    在学术界，为了论文署名勾心斗角的事太多了，肖宿的纯粹反而显得珍贵。

错误举报上一页←返回列表→下一页加入书签更新太慢

第46章 解决

第46章解决