帮助琥珀创想构建数仓

关于琥珀创想

北京琥珀创想科技有限公司成立于2015年初,是一家致力于为全球用户提供普惠且优质产品的应用开发商。琥珀相信产品的力量,立足于中国,可以让全世界各地的用户通过客户的产品而受益。在过去几年里,琥珀天气、Apex桌面等系列产品累计服务过上亿的海外用户并且受到众多用户的好评,部分产品也有幸受到谷歌的肯定,多次被推荐和评为年度最佳。在这个过程中,琥珀也积累了丰富的海外市场的开拓的经验,以及对海外用户以及海外生态的理解。琥珀现在还在持续探索当中,希望能够构建产品去解决对更多用户有更大影响的问题,去创造更大的用户价值,成为全球互联网的基础设施。

客户痛点

琥珀计划对应用程序中的埋点日志进行收集,通过对用户行为的分析,深入了解用户的行为,从而改进产品设计、提升用户体验并优化营销策略。通过对用户行为数据进行分析,可以了解到用户的喜好、行为路径、产品使用情况等信息,从而指导产品的功能、交互设计和营销策略优化。

  1. 客户根据现有业务规模预估每日日志量约为300GB,按此估计每月日志量约为9TB,业务数据的分析需求中需要使用到近1年的数据,需要能支持大数据量分析的数仓产品。
  2. 客户应用的访问情况不稳定,需要日志收集服务能随着访问量自动弹性扩缩。
  3. 客户日志量较大,需要性价比高的存储解决方案。

Partner价值

泰岳销售团队积极跟进客户,并在持续的沟通交流中体现出了泰岳团队优秀的业务能力和技术能力,得到了客户的认可;泰岳技术团队与客户多次交流,针对客户需求为客户提供了满意的解决方案和测试方案;赢得了客户的信任。

解决方案

  1. 在公有子网中部署ALB负载均衡器,附加ACM托管的证书,转发Https请求到AutoScaling Group中多可用区的EC2上部署的Nginx服务;
  2. 使用Nginx将客户端上的请求日志落到EC2磁盘上的本地文件进行滚动存储;AutoScaling配置根据平均CPU利用率60%的自动扩展策略;
  3. 使用Kinesis Agent对日志文件进行读取,发送日志数据到Kinesis Data Stream;
  4. 使用Kinesis Data Firehouse抽取Kinesis Data Stream中日志数据发送到S3,配置S3缓冲区大小、缓存时间间隔,并配置S3压缩格式为GZIP;
  5. 使用Glue抽取S3中原始数据,进行ETL转换处理后写入Redshift中;
  6. 在QuickSight中配置Redshift的数据源,可视化展示数据报表;
  7. 配置S3生命周期策略,将原始日志数据进行存档存储;

项目成果

使用自动扩缩的EC2部署Nginx服务来收集埋点日志,使用Kinesis将数据传输到S3中进行存储,使用Glue对数据进行清洗,使用Redshift作为数据仓库存放数据,使用QuickSight对Redshift中加工后的数据进行可视化展示,使用S3 Glacier对原始日志和历史数据进行归档存储,以降低存储费用。

关于神州泰岳

北京神州泰岳软件股份有限公司(简称“神州泰岳”)成立于2001年,是国内首批创业板上市公司(股票代码:300002)。神州泰岳坚持“互相尊重、值得信任、成就他人”核心价值观和“创新驱动、全球布局”发展战略,立志成为有持续创新能力的数字经济领军企业,打造行业精品,支撑客户提升,推动产业发展。

神州泰岳一直专注于提供亚马逊云科技专业的顾问咨询服务与技术支持服务,其中包括了云咨询、迁移、账单服务、CDN服务、云托管服务以及企业出海服务等。并且针对制造、媒体、游戏、电商等行业提供专业的解决方案,以交付价值的理念为客户提供优质服务。