Instagram商业数据挖掘入门(一) Instagram介绍及基于Instaloader的数据获取

Instagram资讯 2024-04-12 50°

背景介绍

Instagram，中文名照片墙，是目前全球非常火的一款移动社交应用软件，随时随地分享抓拍下来的图片为彼此分享。并于2012年被Facebook收购。Instagram的日活跃用户已经突破5亿，使其仅次于Facebook和 YouTube的第三大社媒平台，并超过Twitter（3.26亿活跃用户）、Snapchat（1.5亿活跃用户）和Pinterest（2.5亿活跃用户）。同时，它作为以图片为主体的发布平台，每天在Instagram上发布的图片和视频总量超过1亿个。

Instagram作为挖掘用户意愿、对品牌的偏好以及口碑传播的平台。在Ins对全球用户的大规模问卷来看，有90%的用户至少会关注一个商家，同时，50%的被受访者对在Instagram上进行的广告宣传更感兴趣。有鉴于此，在100家国际品牌中，有90%的品牌已经拥有Instagram帐户，80%的品牌每周至少发布一则Instagram照片或视频。

同时，还值得数字化营销人员/品牌方注意的是，Instagram上的成年人比例最高，也就是说，具有更高的购买力。

不同app的用户年龄比例

具体来说，它可以用来作什么？在其官方案例中，有以下几点

通过摄影、照片拼贴和品牌创意提升购买意向
新产品发布后用户传播、口碑记录
触达更多客户
推广艺术家

挖掘Instagram的商业数据，从品牌、营销和学术角度，都有重要意义。本文将从数据特点介绍、数据获取、数据处理和基本的探索分析手段几个方面，带大家入门Ins商业数据挖掘。

Ins数据特点

Instagram的产品操作流程如下：

拍照/截屏-->滤镜特效（以lomo风为主的11种照片特效）-->添加说明/添加地点-->分享（可以共享到 Twitter 、Facebook、Tumblr、Flickr以及Foursquare，甚至新浪微博这些主流社交网络）。

同时Instagram基于这些照片建立了一个微社区，在这里你可以通过关注、评论、赞等操作与其他用户进行互动。

李宁官方Ins账号首页https://www.instagram.com/lining.official/

从整个操作路径，Ins的数据，有如下几种类型：

图像/视频

这是Ins上最主要的数据，相比于文字，图像具有更高的信息密度和参与度，所以，对它的挖掘，比Facebook、Twitter这种以文字为主的社交平台能更有价值。

数值型

点赞数、分享、评论数、粉丝数等数值型数据，这部分信息作为最直观的数据，直接反映着一个账号、分享内容的质量。

文本类

文本是除图像外的另一种非结构化数据，包括一些表情、符号在内的图像，包括三种，

附着于图片上的Hashtag，作为图片的标签

发布者的状态，通常是一段配图文字，可能与图片内容有关，也可能没关系

Ins状态配的文字

有关某一条Ins的评论，可以看到，ins上的评论相比较于电商、旅游等网站更加简单，甚至仅仅通过一些表情来表达对图片的态度。

右侧评论

网络/空间数据

作为社交网站，粉丝、关注这些数据构成了一种有向图，在网络结构中，可以很直观的找到KOL、传播路径，同时，通过定位与演化。

抓取方案

巧妇难为无米之炊，数据的获取一直是每一个数据分析师的痛点，尤其是当我们知道一个平台有很重要的价值时。从零开始编写一个爬虫程序无异于灾难，但是好在互联网是一个神奇的地方，

安装

数据下载

注：首先保证能上Instagram。其次，如果有更多的资源和数据要求，可以采用多线程来抓。资源有限，按需抓取。

非结构化数据处理tips

通过instaloader抓取下来的数据，主要有三种格式。

基于json的数据解析

上文的数值型数据和部分文本型数据，被保存在json的压缩文件.xz文件中，需要从中解析出相关信息。JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。

获取的json数据

利用Python处理，其实就是一层层的剥离定位，首先将JSON格式转换成dict，然后去找想要的字段。

基于短文本的信息提取

文本类数据的信息提取，有两种方案

1）鉴于单词/词组是人们文本交流的基础手段。所以朴素的想法是，基于单词/自定义词典/语料库，从词频、共现概率，提取关于文本中的信息、主题或是相关情感

2）利用有标注的数据，可以根据标注标签，通过目前比较流行的机器学习/深度学习方法，发掘出高级/复杂的语义/情感。常见的模型包括利用LSTM/Transforemer/BERT等。

基于图像/视频的特征提取

1）传统的图像特征提取，可以利用opencv或是PIL来提取，主要是利用各种变换、卷积、滤波等手段，对图像进行增强、降噪和检测。

2）利用深度学习来提取图像中的特征，主要是利用CNN及相关架构，常见的特征提取框架有VGG、ResNet、Inception等。

由于针对深度学习的方法，需要大量的标注数据和硬件计算，所以多是采用迁移学习+微调的方案。也就是利用公开的数据集提取底层信息，再用少量个性化场景标注数据来提取上层的更加特异化的信息。

另外在百度、亚马逊、微软等大厂，针对常见的文本情感/图像侦测等常见场景有一些接口，当需要分析的数据不多时，可以免费调取接口。

具体的实现方案，我们将通过具体的一个案例来介绍——对国潮李宁的Ins近期的各类数据进行分析，看看能有什么有趣的发现。具体将会在后期陆续更新。