浙江绍兴出生的杨洋在北京生活了6年,在武汉呆过4年,有一些很要好的当地朋友,可总有些时候感到自己是异乡客。这位浙江大学计算机科学与技术学院的老师对城市新移民的话题产生了好奇:他们过得怎样?怎样帮助他们过得更好?
通过对5400万用户的6.98亿条通话记录的学习,人工智能建立起了一项看似天马行空的关联:通话记录与城市移民状态。在学术界,这是一个利用计算机技术解决社会学问题的崭新领域:计算社会学(computational social science)。
计算社会学是计算机科学与社会学的交叉学科。2009年,包括哈佛大学教授拉泽尔在内的15名学者在《科学》上发表共同署名论文,正式提出“计算社会科学”(computational social science)这一概念。
与传统的社会学调查不同,计算社会学依靠“纯净”的数据说话。这些数据是客观存在着的,不带主观色彩;而每条通话记录绝不涉及通话人信息、通话内容等,不涉及个人隐私。“计算机首先将这些‘纯化’的数据转化为一个包含超过10亿条边的网络,然后进行分析与挖掘。”杨洋说。
两周通话记录:是走还是留?
随着中国城市化的快速发展,城市移民群体在北上广等大城市中的占比越来越高,已从40年前的17.9%上升到52.6%。
计算机对网络的密度、网络簇系数、通话记录的时长和时间分布等物理特征进行学习,建立了一套可以用通话记录映射行为模式的数学模型。“我们想让机计算机告诉我们,新移民与本地人的行为模式有什么不一样。”杨洋说,“比如地理分布,我们的研究显示城市中心本地人的密度较低,占比较高的是城市老移民。原住民则更趋于向城市周边居住。”
“新移民在到达大都市后一个月内的行为模式变化非常剧烈,存在多种演化模式。一部分是先朝老移民者发展,慢慢朝本地人发展;也有的上来直接朝这本地人模式发展。这两种情况都属于融入成功。”杨洋介绍,还存在一种情况,新移民既没有朝老移民的模式趋同,也没有趋同于本地人,研究者将之判断为融入失败。
此基础上,输入新移民两周的通话记录数据,AI能自动做出判断:这位新移民将融入成功还是融入失败。
社群越多越杂,越能融入
所处社群的紧密度越高,移民者融入成功的概率是否也越高?与我们直觉相反的是,杨洋及其合作者的研究表明,松散的社群结构反而有助于移民者融入本地人。
社群的宽松程度,指的是同一个社群中人与人之间关系的连接强度。紧密型社群中的个体两两之间有很强的互动;而松散型社群则相反。“这或许可以解释,如果留学生到了国外后还是和本国学生交流,因为缺乏安全感而不愿意离开关系紧密的、熟悉的圈子,就不能很好地融入当地生活。所以城市新移民一定要努力往外跨一步,想办法去跟本地人玩在一起。” 杨洋说,人工智能虽然能创造性地得出很多关联,但是如何理解这些关联,他们还需要去和社会学家讨论这关联背后的因果关系。
参谋城市规划
最让杨洋感到开心的是,这项研能够初步在城市规划、社会治理等方面提供铺垫,做出参考。“有用,是我们判断一项研究的标准。”杨洋说。
通过通话记录推演行为模式后得出:本地人更愿意去电影院、歌剧院等偏文化娱乐的地方,而移民者更喜欢购物商场。“这或许可以为城市规划者提供参考:在进行城市功能建筑布局时,考虑文化娱乐设施与购物场所相邻,或许可以促进城市移民与本地人的交融。”课题组还尝试研究房价的影响,研究发现:住在高房价的区域的城市移民者融入成功率较低,“我们猜测,这反映了移民者是否可以及时找到一个自己可以负担得起租金的居住地非常重要。”
“我们的生活中有很多客观存在的,主观不色彩的大数据,‘你见或者不见我,我就在那里,不悲不喜。’它们刻画着我们可见或不可见的社会规律或生活模式。譬如,电话记录就是这样的‘不悲不喜’的大数据。”课题组成员,计算机学院吴飞教授说。
在即将在法国里昂进行的WWW国际学术会议上,杨洋将带上他的相关论文做学术报告。他说,课题组还在进行更有挑战的工作:“在一个城市中的不同区域,城市建设或政策是否会影响融入成功的比例?大数据就像一座矿山,我们希望能挖出一些金子,并且能够对社会产生直接的价值,造福百姓生活。”
(科学撰稿人 周炜/摄影 董旭明)