个人基本信息

姓名 性别 年龄 身高 籍贯
莫华瞻 25 167cm 广东省廉江市

学历信息

学历 毕业院校 专业 院校所在地
大学本科 华北科技学院 应用统计学 河北廊坊

技能信息

开发语言 常用框架 其他工具 方向 入门时长
python2.7&3.5 Scrapy,Flask,Django SPSS,Access,R,fiddler 爬虫,数据分析,人工智能 8个月
开发环境 数据库 中间件 分布式监控 协作
Linux MySQL,MongoDB,Redis RabbitMQ Zabbix Git

其他信息

政治面貌 工作经验 技能证书 语言 电子邮箱
中共党员 一年 普通话,粤语 919656720@qq.com

大学四年(2014—2018)

  • 负责:大一期间当班长,注重班级学风,经常组织班级活动,也是班上的「装软件小能手」
  • 积极:在学院晚会上两次出演小品和一次合唱;连续三年参加校运会短跑接力项目
  • 勤勉:四年内两次获得二等奖学金,两次获得三等奖学金

工作一年( In 杭州 )

深圳怡亚通供应链有限公司金服平台( 杭州省区 )

在职时间:2018年7月12日——2018年9月17日

职务:见习信贷经理

业绩:0 单

见习经历:

杭州省区是EA金服开辟不久的职场,存量客户不多。分配带我的老师傅在我入职一个星期后便离职了,在没有人帮带的情况下,我积极向另一位经验丰富的信贷经理请教,至今仍然感谢他当时的悉心传授。

每周我坚持跑三天地推,从一天10家到一天30家,杭州江干区到下城区的商超和各大副食品市场都留下我的足迹,每天晚上都会整理优化小本本上的话术,每次「出征」前都会在脑海中多次模拟和对方沟通的场景;平时有遇到合作平台提供的名单,我会积极主动去电销,过后反复听通话记录,也虚心向同事请教话术技巧。

可惜好景不长,9月初怡亚通宣布大规模裁员,我也在「优化名单」内。剩下的半个月时间,我努力去执行营销方案,却无法收获一笔信贷业务,于是在9月17日提请离职。

杭州壹马科技有限公司(秒派助手

在职时间:2018年9月18日至今

职务:打杂

工作经历:

  • 文本分类器(去年9月—10月)
环境 语言 领域 常用库 算法 参考
win7 python NLP jieba,numpy,pandas tf&idf,textrank Tmsvm

入职后第一次接触python,当时公司正在给一款智能媒资产品设计文本分析模块,要实现给新闻文本分类的功能。我从NLP自然语言处理这一块入门,下载的数据集是清华新闻分类语料。先是对比云平台和开源(如:jieba,StanfordCoreNLP,pyltp等)的分词能力,然后手写tf&idf算法抽取中心词,文本摘要和中心词提取也有使用第三方库。最后是用的分类算法是参考了浙江大学张知临先生开源的基于SVM的线性分类器源码。

整个训练花了半个月的时间(公司设备条件较落后,由于RAM有限,最终确定训练样本量为70万条新闻),平均每两天产出一个模型。我用训练出来的模型进行预测,根据准确率和召回率调优参数,反复迭代,最终分类器准确率达到82%(预测样本1000条)。

总结:当时尚未熟悉深度学习的前沿资讯,后来又继续了解了TensorFlow框架结合CNN和RNN算法做的文本分类。

  • 爬虫 & 数据分析 & 算法设计(去年11月—12月)
环境 语言 领域 常用库 数据库 数据量级
Linux python 爬虫,数据分析 requests,selenium,pandas,matplotlib,wsgiref,urllib2 MongoDB 十万级

11月,公司要开展短视频平台的数据中心开发,招了一个爬虫工程师,我跟着他学习。公司要求爬取抖音,快手,秒拍和微博等平台的短视频,我负责快手和秒拍的数据爬取,以单个账号为单位,爬取该账号下的视频以及点赞评论等互动数据。爬取任务每小时执行一次,互动数据为列表递增。

12月,根据首批爬取的数据进行数据分析,分析所有平台的账号的数据变化趋势,用聚类分析按互动数据给账号分层次,从而调整各层次账号的爬取频率。然后设计了一套算法,计算单条视频当前的热度指数,飙升指数以及单个账号的传播力指数。(先考虑各项指数涉及的数据维度,根据指数展示的需求,进行数值拟合,调优参数,最终计算各维度权重。在算法中,考虑数据对齐和时间因素,参数与权重会动态调整)

总结:爬虫并未涉及到 js解密和 APP逆向破解,代理和加签算法分别向服务商购买的,我在这期间仅入门了最基本的爬虫。算法设计方面,我在今年5月份再次进行了优化

  • 撰写公众号文章 & 视频剪辑 & 社群运营 & 微信机器人(去年12月底—今年1月)
平台 任务 工具
微信公众号 写文章,剪视频 python(数据处理),Excel,Adobe Premiere
项目 语言 使用库 功能
微信机器人 python itchat,requests 实时查看各类榜单,分享链接获取抖音无水印视频

1月,公司开始运营微信公众号(黑马数据助手),我负责给公众号写文章(文章中包含用爬取来的素材剪辑的视频)。

如:人民日报的「抖音一分钟」盘一盘抖音「人气最高」职业

同时,公众号文章会将读者引流到微信群(面向媒体人),我在执行拉新—>促活—>留存这套流程的同时,编写了一个微信机器人进行群管理(我分了两个模块来写,一部分是API组,用于实现功能;另一部分是请求调用组,用于接受群信息并返回准确信息),用于帮助群成员实时查询使用。

总结:公众号吸引了不少搞融媒体的业内人士关注,我在这个过程中进一步接触了媒体行业,5G的到来和 AI 逐步成熟为融媒体发展深度赋能

  • 社群运营 & 数据运营 & SEM优化 & 内容推广(今年3月至今)
社群规模 推广平台 用户类别 月均用户增长 日均活跃用户
300人 微信,抖音,百度等 广告主,达人&MCN机构 500+ 100+

公司的SaaS产品2.0——秒派助手在4月10号上线。在上线前,我针对产品面向的用户群体,撰写业务逻辑,通过微信,抖音等社交平台寻找机构进行合作推广。

正式上线后,我通过社群运营给用户进行商务对接,吸引关注抖音变现的群体来使用产品。一方面通过挖掘需求来优化产品,提高用户粘性;另一方面,在运营中寻找一套可以形成闭环的以数据产品为基础,商业模式为核心的业务逻辑。

同时,我也负责产品的百度SEM推广和官网的内容编辑,每天结合GA统计分析和后台数据产出数据运营报表。

总结:运营方法出台—>探索实践—>总结—>优化的周期短灵活高,我得以及时思考和调整。但是,团队缺少有经验的运营管理者指导,运营效率较低,在瓶颈期也难以突破

  • 抖音账号抓取(今年3月)
平台 工具 数据库 数据量级 效率
抖音 fiddler,python MongoDB 十万级 日均10000+

优质的不同类别的短视频账号是秒派助手数据平台的主要监控对象。按照平台对账号的甄选条件,我通过fiddler抓包在抖音平台上先后抓取了超过10万个账号(带分类)的数据,提供给公司使用。

总结:如果先是全平台爬取,后进行账号分类,效率应该会更高。当时在有限的设备和网络资源基本上,无法评估全量爬取的用时,因此修改方案

  • 商品分类器(非图像识别,3月底v1.0版,5月升级v2.0版)
语音 领域 使用库&框架 数据量级
python 爬虫,NLP,Web requests,multiprocessing,jieba;flask 百万级

公司爬取回来的商品需要带有分类。3月份,我提取北京大学开放数据中心的电商数据集的所有商品名称及对应分类,训练了一个商品分类模型,并集成API交付给后端使用。

5月初,我抽空重新训练调优该模型。我从京东爬取了230万条商品信息(西刺免费代理,开了4个线程跑),利用商品名称及京东商品分类标准,重新训练好新的分类模型并部署使用。

总结:商品分类器仍可以通过以下方法再优化:新增图像识别;维护商品词库;校准判别阈值等

  • 星图平台爬虫系统搭建(今年5月底)

星图平台为抖音用于商务对接的官方平台,其数据维度极具参考价值。应公司要求,我单独搭建星图平台的爬虫系统。

项目雏形可见文章:聊一个简单的爬虫

总结:首先该爬虫考虑的主要是前期使用,对于后期数据增长的处理,在系统中并没有体现。弊端有:爬虫非分布式,尽管消息队列做了持久化,宕机后仍需人工处理,不能及时切换;增量式爬取数据极快,数据库未搭建集群,也无切片处理;在只有一个 cookie 的情况下,未尝试使用代理,爬虫效率低;cookie 到期时未设置发送邮件提醒,会造成一定程度的数据缺失;在这里用 Flask 编写的 API 使用了 gevent 来处理异步非阻塞,并未进行压测,在高并发时应对比Tornado,Flask,Django(使用 gunicon/uwsgi + supeivisor + nginx 部署),nameko(RPC协议)四者的性能;还有一些关于 MQ 和 Redis 的使用上,都有不到位的地方