《社交网络分析》课程由鲁宏伟老师授课,其教学方式不仅严谨负责,还充满幽默与个人见解。这个方向对我而言也尤其有吸引力,怀着极大的兴趣选修了这门课程。
期待将这些知识应用到未来的学习和工作中,继续在这个充满潜力的领域探索新的可能。
本章主要为考试后复盘 + 相关资料补充。
鲁宏伟老师给我留下了极其真诚、严谨的印象,无论教书过程、还是最后的考试形式。
最开始复习的时候,我以为课程提纲只是帮助我们梳理课程脉络的工具,然而令人惊喜的是,这些提纲实际上是整个考试的考纲范围hh
特别感谢王乐章同学的思考和笔记。他的分享不仅丰富了我的学习材料,还给我提供了新的视角和思考方式。笔记随附在最后 ~
下面是考试复盘 ——
名词解释:社交网络分析、扎根理论、六度分割理论
简答题:
1.列举两种在社交网络分析中采用的数学理论或方法,并简述其应用场景。
2.简要地介绍一下k-匿名以及针对这种方法的攻击方式。
3.什么是负例采样?其主要作用是什么?
4.社交网络舆情的构成包括哪几个部分,简要进行说明。
Logistic回归模型的核心在于将线性回归的输出通过一个非线性函数(通常是logistic函数)映射,从而将问题转化为二分类问题。在构造损失函数时,主要考虑以下几点:
概率解释:Logistic回归通过sigmoid函数(或logistic函数)将线性回归模型的输出转化为概率值,表示为 p = 1 1 + e ? z p = \frac{1}{1 + e^{-z}} p=1+e?z1?,其中 z z z是线性模型的输出。
损失函数:为了衡量模型预测的准确性,Logistic回归采用的是对数似然损失函数(Log-Likelihood Loss)。对于单个样本,其损失函数为 ? log ? ( p ) -\log(p) ?log(p)或 ? log ? ( 1 ? p ) -\log(1-p) ?log(1?p),具体取决于该样本的真实类别。
最大化似然:整体目标是最大化所有样本的似然函数,即最小化负对数似然损失。这可以通过梯度下降等优化算法实现。
正则化:为防止过拟合,还可以在损失函数中加入正则化项,如L1或L2正则化。
Logistic回归通过以下步骤将线性回归模型转化为二分类模型:
线性组合:首先,它构建一个线性模型, z = β 0 + β 1 x 1 + β 2 x 2 + ? + β n x n z = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n z=β0?+β1?x1?+β2?x2?+?+βn?xn?,其中 β 0 , β 1 , ? ? , β n \beta_0, \beta_1, \cdots, \beta_n β0?,β1?,?,βn?是模型参数, x 1 , x 2 , ? ? , x n x_1, x_2, \cdots, x_n x1?,x2?,?,xn?是特征。
应用Sigmoid函数:接着,将线性模型的输出通过sigmoid函数转换,得到一个介于0和1之间的值,表示样本属于特定类别的概率。
分类决策:最后,设定一个阈值(通常是0.5),如果模型输出的概率大于这个阈值,则预测样本属于正类;否则,属于负类。
通过这种方式,Logistic回归有效地将线性模型的输出转化为分类决策,使其能够处理二分类问题。
在社交网络分析中,处理大规模数据集是一个常见挑战。解决这个问题的方法主要包括:
分布式计算:采用如Hadoop或Spark等分布式计算框架,可以有效地处理大规模数据集。这些框架支持将数据分散存储并并行处理,大大加快了处理速度。
数据采样:在数据量极大时,合理的数据采样策略可以减少处理的数据量,同时保持数据的代表性。例如,随机采样、分层采样等。
数据压缩:使用数据压缩技术如主成分分析(PCA)等,减少数据存储空间,加快计算速度。
社交网络数据通常具有高维特征,这可能导致计算复杂度增加和过拟合等问题。解决方法包括:
特征选择:通过选择与预测变量最相关的特征来减少特征的数量。常用方法包括基于统计测试的特征选择、基于模型的特征选择等。
降维技术:使用降维技术,如主成分分析(PCA),线性判别分析(LDA)等,将高维数据转换为低维空间,减少特征的数量,同时保留大部分信息。
正则化技术:在模型训练过程中使用正则化方法(如L1、L2正则化),可以减少特征的有效复杂度,防止过拟合。
在进行TVDM(时变动态模型)的数值模拟和仿真时,模型建立者在确定模型中涉及的超参数时通常会采用一个多维度的方法。
TVDM模型的超参数确定是一个综合多种方法的过程,包括理论指导、数据驱动分析、实验测试以及迭代优化等。这种综合方法有助于确保模型在复杂的社交网络环境中的准确性和有效性。
下面详细阐述这些方法:
理论基础:模型建立者会根据社交网络理论和信息传播理论等相关领域的理论知识,设置一些符合逻辑和经验的初步参数。例如,基于群体行为理论或网络拓扑结构特性的理解,可以设定影响模型动态的关键参数。
专家意见:在某些情况下,模型建立者也可能依赖于领域专家的意见来确定某些参数的初始值,尤其是在新领域或缺乏足够数据的情况下。
统计推断:通过对历史数据进行详细的统计分析,可以估计参数的可能范围。例如,分析用户行为数据可以帮助确定用户互动频率的参数。
数据驱动的调整:通过将模型应用于历史数据,并观察其预测与实际情况的吻合程度,可以调整和优化参数。
模拟实验:通过在控制环境中进行模拟实验,可以测试不同参数设置下模型的表现。这有助于理解各参数对模型行为的影响。
参数敏感性分析:进行敏感性分析以识别对模型输出影响最大的参数,这有助于优化关键参数。
持续优化:在模型运行和验证过程中,根据实际效果不断调整和优化参数,以提高模型的准确性和鲁棒性。
交叉验证:使用交叉验证方法来评估不同参数配置下模型的性能,并据此进行调整。
机器学习算法:使用机器学习算法,如贝叶斯优化或遗传算法,自动搜索最优参数组合。
反馈机制:在一些高级模型中,可能采用基于反馈的方法,让模型根据预测效果自动调整其参数。
Logistic回归是一种广泛应用于二分类问题的统计方法,它通过将线性回归模型的输出传递给sigmoid函数,将连续型预测值转化为概率值,从而实现分类。
线性回归模型的形式为 y = β 0 + β 1 x 1 + β 2 x 2 + ? + β n x n y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n y=β0?+β1?x1?+β2?x2?+?+βn?xn?,其中 y y y 为预测值, β 0 , β 1 , . . . , β n \beta_0, \beta_1, ..., \beta_n β0?,β1?,...,βn? 为模型参数, x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1?,x2?,...,xn? 为特征变量。然而,线性回归输出的是一个连续值,不适用于分类问题。
为了将线性回归模型用于分类问题,特别是二分类问题,Logistic回归引入了sigmoid函数(或逻辑函数),这个函数的表达式为 σ ( z ) = 1 1 + e ? z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+e?z1?。通过将线性回归模型的输出 z = β 0 + β 1 x 1 + β 2 x 2 + ? + β n x n z = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n z=β0?+β1?x1?+β2?x2?+?+βn?xn? 作为sigmoid函数的输入,可以将任意实数值映射到区间 ( 0 , 1 ) (0, 1) (0,1) 上,这个值可以被解释为事件发生的概率。
为了训练Logistic回归模型,需要定义一个损失函数(也称为成本函数),用以衡量模型预测值与实际值之间的差距。对于Logistic回归来说,常用的损失函数是对数损失函数(Log-Loss),其形式为:
L ( β ) = ? 1 m ∑ i = 1 m [ y i log ? ( y ^ i ) + ( 1 ? y i ) log ? ( 1 ? y ^ i ) ] L(\beta) = -\frac{1}{m}\sum_{i=1}^{m}[y_i\log(\hat{y}_i) + (1 - y_i)\log(1 - \hat{y}_i)] L(β)=?m1?i=1∑m?[yi?log(y^?i?)+(1?yi?)log(1?y^?i?)]
其中, m m m 是样本数量, y i y_i yi? 是第 i i i 个观测的真实标签(0或1), y ^ i \hat{y}_i y^?i? 是模型预测的概率,即 y ^ i = σ ( z i ) \hat{y}_i = \sigma(z_i) y^?i?=σ(zi?)。
这个损失函数能够很好地反映分类预测的准确性。当预测的概率接近真实标签时,损失函数值较小;当预测的概率远离真实标签时,损失函数值较大。通过最小化这个损失函数,可以使得模型在训练数据上达到较好的分类效果。
也称150定律,指能与某个人维持紧密人际关系的人数上限,通常认为是150。这是由大脑新皮质的大小决定的,这使得人类的社交人数上限为150人。
社交网络数据的拥有者在发布含有敏感信息的数据之前通常对数据进行匿名化操作,如删除用户名、用户电话号码等身份信息,同时添加或删除部分社交网络好友连接以改变社交网络的拓扑结构。匿名化技术以某种方式更改将要发布使用的数据,防止其中的关键信息被识别,从而保护数据隐私。
课件上给出的解释是:在研究某一结果 y y y与一系列因素 ( x 1 , x 2 , . . . , x n ) (x_1, x_2, ..., x_n) (x1?,x2?,...,xn?)之间的多元线性关系时,需要让不显著的线性关系变得显著,使因素的变化能够引起结果发生显著的变化。通过引入logit变换,对因变量取对数,使得自变量的微小变化导致因变量的巨大变化
查阅资料后,我认为这一解释并不准确。logit变换的目的是引入逻辑函数,将线性回归的输出映射至 ( 0 , 1 ) (0,1) (0,1)区间,使最终的输出可以用于表示事件的概率。
逻辑斯蒂回归是在线性回归的基础上建立的,线性回归为因变量 y y y和一系列自变量 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1?,x2?,...,xn?建立了多元线性关系,即 y = β 1 x 1 + β 2 x 2 + . . . + β n x n + ε y=\beta_1x_1+\beta_2x_2+...+\beta_nx_n+\varepsilon y=β1?x1?+β2?x2?+...+βn?xn?+ε,记作 y = β X + ε y=\mathbf{\beta}\mathbf{X}+\varepsilon y=βX+ε,此时 y y y的取值范围是 ( ? ∞ , + ∞ ) (-\infty,+\infty) (?∞,+∞)。逻辑斯蒂回归的目的是进行二分类,估计某件事情的概率(介于 ( 0 , 1 ) (0,1) (0,1)之间),于是在线性回归的基础上引入逻辑函数 f ( z ) = 1 1 + e ? z f(z)=\frac{1}{1+e^{-z}} f(z)=1+e?z1?,将线性回归的输出由 ( ? ∞ , + ∞ ) (-\infty,+\infty) (?∞,+∞)映射至 ( 0 , 1 ) (0,1) (0,1),最终得到新的模型 p = 1 1 + e ? y = 1 1 + e ? ( β X + ε ) p=\frac{1}{1+e^{-y}}=\frac{1}{1+e^{-(\mathbf{\beta}\mathbf{X}+\varepsilon)}} p=1+e?y1?=1+e?(βX+ε)1?。其中 p p p可以认为是事件的概率, y y y可以认为是事件的几率, y = l n ( p 1 ? p ) y=ln(\frac{p}{1-p}) y=ln(1?pp?)。在数学上, p 1 ? p \frac{p}{1-p} 1?pp?被称为概率 p p p的几率, l n ( p 1 ? p ) ln(\frac{p}{1-p}) ln(1?pp?)就是概率 p p p的logit变换
依据运动学、动力学和时变系统与信号变换理论,对社交网络上的信息传播过程进行分析
首先,我认为ILDR模型中的参数不能被称为是超参数,超参数是指机器学习中控制学习过程的参数,ILDR模型并不是机器学习模型,其中的参数称不上超参数。
其次,模型建立者并没有给这些参数一个固定的值,而是调整这些参数以进行数值仿真分析,观察在不同的参数下,各类人群随时间推移的演变。
ILDR模型只是一个网络垃圾信息的传播模型,通过调整模型参数来模拟不同条件下网络垃圾信息的传播过程。我们可以根据真实世界的情况,确定模型的参数来模拟真实世界中网络垃圾信息的传播过程。
平衡点:若存在某一状态点 x e x_e xe?,对于任意时间 t t t, x ( t ) x(t) x(t)都不随时间变化,则称 x e x_e xe?为系统的平衡点
稳定:给定 ε \varepsilon ε和系统起始时间 t 0 t_0 t0?,以平衡点 x e x_e xe?为圆心划定半径为 δ ( δ < ε ) \delta(\delta<\varepsilon) δ(δ<ε)的范围 S ( δ ) S(\delta) S(δ),若从 S ( δ ) S(\delta) S(δ)内出发的任意一点 x 0 x_0 x0?的系统状态均在 S ( ε ) S(\varepsilon) S(ε)内运行,在平衡点附近振荡,则平衡状态是李雅普诺夫稳定(简称稳定)
一致稳定:在稳定的前提下,如果只根据 ε \varepsilon ε就可以划定 S ( δ ) S(\delta) S(δ),则称为一致李雅普诺夫稳定(简称一致稳定)
渐进稳定:系统不仅稳定,且系统状态趋于平衡点,即 lim ? t → ∞ x ( t ) = x e \lim\limits_{t \to \infty}x(t)=x_e t→∞lim?x(t)=xe?,则称平衡状态是渐进稳定
一致渐进稳定:在渐进稳定的前提下,如果只根据 ε \varepsilon ε就可以划定 S ( δ ) S(\delta) S(δ),则称为一致渐进稳定
局部渐进稳定:对于任意处于平衡点 x e x_e xe?附近的初始状态 x 0 x_0 x0?,都有 lim ? t → ∞ x ( t ) = x e \lim\limits_{t \to \infty}x(t)=x_e t→∞lim?x(t)=xe?,则平衡状态是局部渐进稳定
全局渐进稳定:对于任意初始状态 x 0 x_0 x0?,不要求其处于平衡点 x e x_e xe?附近,都有 lim ? t → ∞ x ( t ) = x e \lim\limits_{t \to \infty}x(t)=x_e t→∞lim?x(t)=xe?,则平衡状态是全局渐进稳定