从全球最大的零售店沃尔玛(Walmart)抓取电子商务数据
已发表: 2022-05-25根据福布斯发表的这篇文章,截至 2021 年 7 月,沃尔玛在 28 个国家/地区拥有 20,000 家门店。它仍然是世界上最大的零售商,亚马逊以近一半的销售额紧随其后。 成立于 1962 年,虽然它不是一家新公司,但它已经改进了技术工作,在行业中留下了许多新参与者。 它也是涉足数据并在其董事会中实现数据支持决策的顶级公司之一。
2021 年,它开始构建世界上最大的私有云,可以在每小时 2.5 PB (2500Tb) 的数据范围内处理任何地方。 为了进一步处理这些海量数据,它还在阿肯色州本顿维尔的总部设立了一个名为 Data Cafe 的分析中心。 在这个中心,可以转换、可视化或用于创建模型的近 200 个内部和外部数据流以及 40 PB 的事务数据。 将处理数据所需的时间从几周减少到几分钟,有助于公司发现趋势并加快决策速度,从而缩短有效应用数据的周转时间。
沃尔玛和大数据
电子商务网站和零售商经常使用内部和外部数据源(竞争对手数据)进行动态定价管理。 虽然这是大多数公司的默认(通常也是唯一)用例,但沃尔玛使用其数据源执行多项活动——
个性化您的在线购物体验
就像 Netflix 使用您以前的使用数据为您提供个性化体验和推荐一样,沃尔玛使用您的历史数据来展示可能与您更相关的产品和交易。 这有助于留住客户,通常订单规模更大。
改进店内结账流程
那些仍然喜欢在实体店购物的人害怕无人收银台和排长队。 沃尔玛正试图通过研究以前的数据并计算有多少员工可以在一天中的任何时间促进高效计费,从而消除最后一点瓶颈。

供应链管理
每件商品通过一系列步骤到达客户手中,每个步骤都涉及不同的运输系统。 沃尔玛试图通过尽可能减少步骤和改变卡车时间来优化供应链,以确保它们能够填满整个货物空间。 它甚至研究路线和时间,以确定哪条路线可以让客户最早收到他们的订单。
有效补充药房
它使用内部数据和历史数据来创建模拟并高度准确地预测某些数据点。 这些包括-
- 商店在一天中的什么时候看到最大的客流量
- 一个月或一年中最忙碌的日子
- 哪些药物需求量最大
所有这些信息都有助于有效地管理员工和药物,以确保更少的时间来填写每个处方。
优化产品选择
它使用来自在线和离线销售的数据,在其商店和仓库的货架上提供最优化的品牌和产品选择。 它还试图衡量哪些内部品牌受到客户的欢迎,以增加他们的可用性。
数据点和来源
讨论用例是提高公众对主题的兴趣的好方法。 但是,我们最需要关注的是正在收集的数据点以及这些数据流的来源。
沃尔玛在跨国界以及在线领域拥有广泛的影响力。 这就是为什么它可以从多个来源收集数据的原因——
- 每天在全球 10,900 家实体店和 10 个直播网站上拥有 2.45 亿客户。
- 每天在社交媒体网站上出现 300,000 次提及和标签。
- 每年有 2,00,000 名员工和近 50,000 名员工被聘用——所有员工都会生成内部数据,使沃尔玛能够改进其招聘流程并提供更好的工作环境。
- 1.45 亿美国公民的客户数据,其中 60% 是成年人。
庞大的数据储备使沃尔玛每天可以分析数百万个关键词,并据此押注关键词来投放广告。 它还能够分析数以千计的产品——它销售的产品和不销售的产品。 所有这一切使它能够通过拥有客户最想要的产品来增加销售额。
沃尔玛甚至分析当地事件、天气和社交媒体现象以及它们如何影响客户行为。 例如,假设一部电影很受欢迎,而男主角戴的手表立即在年轻人中风靡一时。 沃尔玛将能够根据来自社交媒体的数据预测更高的销售额,并尝试囤积该产品。
为比赛转换数据挑战
每家公司在处理新数据集或尝试使用数据回答新问题时都面临数据挑战。 2014 年,沃尔玛需要找到一种有效的方法来利用小范围的历史数据来预测销售额。 它在 Kaggle 上举办了这场比赛,分享了跨多个部门的 45 家实体店的销售数据。 特殊日子和假日季节的销售也被标记在数据中。
为个人提供了与每家商店所在位置相对应的更多数据点。 其中包含天气模式、失业率百分比、工资中位数、燃料成本等信息。 这是一个招聘挑战——因此沃尔玛可以用一块石头钉两只鸟。
沃尔玛数据实践的实施
如果您计划从沃尔玛抓取产品或定价数据,您应该首先确定您想要定位的部门。 从所有部门获取所有数据可能是一项艰巨的任务。 如果您在特定的地理位置进行操作,那么抓取仅与该地点相关的数据也是明智之举。 获取所有数据并稍后对其进行过滤将浪费两倍的时间和计算资源。
考虑到沃尔玛所服务的市场和部门的多样性以及其目录中的产品数量,从沃尔玛那里抓取数据可以为你找到位置。 但是,如果您在沃尔玛采用“数据实践”,无论是从数据处理的角度还是从其云基础设施的角度来看,您都会走得更远。
