我分析了42万字歌词,就为了搞清楚民谣歌手在唱些什么


听了这么多年的民歌后,我有一种感觉,很多歌我都很熟悉。然而,当我仔细考虑的时候,我记不起是哪一个首都。为了找出这些现代游吟诗人在唱什么,我做了一些数据分析工作。

我选择了大约30个民间歌手和乐队,涵盖了从程序员、朋克、男同性恋到女权主义者、中国阿姨、穆斯林的所有群体,包括李智、姚13、赵磊、宋东业、周云鹏、逃亡计划等。为了建立一个参考,我还采取了一些其他风格的乐队,如老王峰,窦唯,蒲舒和新的低蒿草,谢天笑,反射器,曹东等。

我首先写了一个爬虫,它可以根据歌手或乐队的名字自动捕获歌手的所有歌曲。为了确保平衡,我最多只能捕捉前50首歌曲。老实说,大多数歌手都熟悉不超过这个数字的歌曲。

我分析了42万字歌词,就为了搞清楚民谣歌手们在唱些什么

这样,我得到了100个充满歌词的小文件,我可以通过在它们上面滑动鼠标感受到它们散发出来的艺术气息。我感到一阵忧郁。为了写下面的代码,我吹掉了一瓶可乐。

我分析了42万字歌词,就为了搞清楚民谣歌手们在唱些什么

接下来,我开始分析这些歌词(大约42万字)。

首先是情感分析。通过对这些歌词的自然语言处理,我知道不同歌手唱的是开心还是不开心的事情:

我分析了42万字歌词,就为了搞清楚民谣歌手们在唱些什么

值分布均匀,但我们大致可以看出有三类,一类是特别开心的,比如郝云。然而,一开始我不太明白为什么失去火车的心情如此之高。听了他们的歌几次后,我发现虽然他们唱得很惨,但歌词充满了积极的能量。在失去火车乐队的歌词中出现最多的三个词是“永远”、“晚安”和“固执”。这些都是积极情绪的话。第二类更悲伤,以我们熟悉的弟弟毕为代表,他的歌词充满了孤独、沉默、眼泪等词。虽然没有暴力,但还是有一些黑暗。

我分析了42万字歌词,就为了搞清楚民谣歌手们在唱些什么

第三类是赵磊,他比较冷静,就像一个朋友给你讲故事一样。他容易谈论。其中也有快乐和悲伤,但是整体情绪倾向于中间值。这也许可以解释为什么赵磊这么晚才发火,普通的情绪很难很快给人以强烈的影响。然而,好音乐总是会被人们发现。

$page$

基于某种兴趣,我分析了其他音乐风格的情感:

我分析了42万字歌词,就为了搞清楚民谣歌手们在唱些什么

民谣富含情感,而摇滚乐的情感大多是负面的。人们说没有没有愤怒的摇滚乐,至少歌词的情感是正确的。

民间歌手最喜欢哪个季节?通过对歌词的分析,这个问题也可以得到解决:

我分析了42万字歌词,就为了搞清楚民谣歌手们在唱些什么

其中,春季81次,冬季74次,夏季70次,秋季47次。因此,最受欢迎的是春天和冬天,最不受欢迎的是秋天。然而,我个人认为秋天很好。秋天凉爽,蔬菜价格便宜。

同样,我也分析了歌手最喜欢的城市,结果如下:

我分析了42万字歌词,就为了搞清楚民谣歌手们在唱些什么

。可以看出,北方城市完全击败了南方城市,成为歌词中歌唱最多的地方,尤其是北京,共计81次。说到一线城市,人们会说北方广阔而深邃,但在民谣的世界里,北京绝对不可动摇。成都是唯一一个几乎没有出现的南方城市。作为成都人,我对此很高兴。

很难理解,虽然北方城市赢得了一场大胜利,但歌手们说的更多的是“南方”而不是“北方”。“南方”比“北方”多大约5.7%

我分析了42万字歌词,就为了搞清楚民谣歌手们在唱些什么。我感兴趣的另一个问题是民间歌手是向前看还是向后看,把希望寄托在未来,还是回忆过去?

我分析了42万字歌词,就为了搞清楚民谣歌手们在唱些什么

可以看到,民间歌手向前看,至少活在当下。歌词中“明天”这个词出现得最多,其次是“今天”和“昨天”,而“前天”和“后天”几乎可以忽略不计。这是可以理解的。例如,“我把我的青春押在明天”听起来很棒。如果你说“我把我的青春赌在后天”,或者甚至说“我把我的青春赌在下个月5号”,听起来像个赌徒疯了。

在我的统计中,最常见的图像是:再见,女孩,夜空,孤独和幸福。

如果民歌被拟人化,那应该是一个喜欢南方的北京年轻人。他认为这个世界一团糟,但是责骂和责骂对生活充满希望。他期待明天,春天感到快乐,冬天感到孤独,没有女朋友,但有几个前女友纠缠不清。他经常和他们见面。他遇见的地方可能是成都、昆明、南京、上海和武汉。

最后,我想推荐我珍藏多年的圆柱树皮乐队。虽然他们只演奏了半首歌,但他们仍然很棒。哈哈。

youtube.com