拉钩数据职位分析报告
本篇博客写于研究生期间。 试着,做了一个拉勾网数据分析师职位的数据分析。 其实,虽然很想做数据分析师,但是是跨行,心里相当忐忑,做这个分析就相当于加深自己对数据分析这个行业的了解了。 思路 起始数据来源本来是想自己写个爬虫的,可是学了好久,还是不能融会贯通,总会出一些bug,只能继续学习,争取早日修成爬神功。又想着,总不能还没开始,就结束了这次实验。最后无意中发现了一个爬虫工具–八爪鱼、、只需要点点点(其实,当时有种挫败感)。不过,总算数据总算有了。 数据的采集数据的具体采集过程如下: 下载安装八爪鱼采集器。 创建任务,选择列表及详情。 输入任务名称、备注。 输入采集网址 设置详情页链接,也就是点进具体的详情页。 设置好翻页。 点击需要采集的数据信息。 开始采集。 数据导出为excel。 过程数据的清洗与处理这里试着用了两种工具,Excel + Python,也比较了一下二者的优点。与前人所述基本一致,纸上得来终觉浅啊。 想说一下字段的命名,如果用了Python进行处理的话,最好还是把字段命名为英文,或者说字母。可以简化后期处理,会方便很多。 当然,你如果全用Excel是...
Python常见错误
python常见错误pandas读取文件报错 文件不存在import pandas as pdpath = r'C:\Users\admin\Desktop\data\19\190103am9'data = pd.DataFrame(pd.read_excel(path)) 运行报错如下: FileNotFoundError: [Errno 2] No such file or directory:’C:\Users\admin\Desktop\data\19\中国人寿190103am9’ 文件不存在那肯定是路径的问题。去看路径,哎,好像没问题啊,都是对的。 但是仔细看几遍,你就会发现,文件路径的最终文件名没有加后缀。 改成: path = r'C:\Users\admin\Desktop\data\19\190103am9.xlsx' 成功。
Pandas数据类型转换的大坑
Pandas的数据类型是一个必须要注意的地方!!! 数据类型,开始我真的没怎么太注意。。后来真的是掉进了这个大坑。将我埋掉了。 问题起源首先,我要对数据进行去重,再去重之后,在对数据的call_id进行计数,最终我发现,我和别人统计的结果有差别。差了1。 我是拿到数据,直接导入pandas,然后直接去重。最后掉进了这个大坑。 import pandas as pdimport globpath = r'C:\Users\admin\Desktop\renshou\data'#路径filenames = glob.glob(path + "/*.txt")#文件路径call_data = pd.DataFrame()list_call_data = []#用pandas读取所有数据,并连接到一个DataFrame中。for file_name in filenames: filename =open(file_name) df = pd.read_table(filename,sep = ',',he...
sqlzoo练习答案练习题答案记录
这是关于在一个SQL学习网站的练习题答案记录:SQL教程 SQL基础由一些简单的查询开始这里的默认表格为WORLD表格 。 name continent area population gdp Afghanistan Asia 652230 25500100 20343000000 Albania Europe 28748 2831741 12960000000 Algeria Africa 2381741 37100000 188681000000 Andorra Europe 468 78115 3712000000 Angola Africa 1246700 20609294 100990000000 …. name:国家名称 continent:大洲 area:面积 population:人口 gdp:国内生产总值 SQL对大小写不敏感。 以显示德国德国的人口。 SELECT population FROM worldWHERE name = 'Germany' 查询面...
读书笔记
有时,真是不能理解自己,所有的正统书籍都看不进去(当然不包括专业书籍,以及教学书),却对各种网文情有独钟,这么多年,玄幻文,历史文,穿越文,科技幻想,武侠等等,读了不知道多少。 总结下,最喜欢的作者是烽火戏诸侯,最喜欢的书是《雪中悍刀行》,有时间,定要再读。 [TOC] 机破星河 有一个人说过,在这个世界上,看到的永远是表象。越接触这个庞大的世界,才越知道自己的渺小。如果一路冒然的撞过去,很有可能会头破血流。” 不敬强权,不畏死亡,心怀梦想,至死方休。 我的1979 大多数人想要改造这个世界,但却罕有人想改造自我”。 侠行天下 我和你讲道理,你和我耍流氓,我和你耍流氓,你和我讲法律,我和你讲法律,你和我玩实力,我和你玩实力,你和我讲道理……就是这个意思,这个世界的公道终究是力量来决定,所谓的法律,永远是统治阶层为了更好统治而立下的秩序 大魏宫廷 注:一个冷知识,为何握手是用右手?因为古代普遍是右手拿兵器,摊开右手,表示手中没有兵器,这是向对方表达善意的举动,不是因为惯用手的缘故。同理,抱拳时左手压右手,左手为尊,压着右手,象征和平。(经查证确实有这种说法) 大国医 步...
SQL的学习
SQL的学习之路,主要参考资料是: SQL必知必会W3school的SQL简介 右击,新标签页即可打开原图 操作使用的数据库为Access及MySQL。 数据采用的是SQL必知必会中的数据 (最下方可以下载数据)。其有5个表,表的关系如下: 看不清的图片:右击新标签页打开即可。 SQL基础 检索数据 排序检索数据 过滤数据 高级过滤 通配符过滤 创建计算字段 函数特性 函数 汇总数据 分组数据 以上测试均在Access数据库中进行,以下于MySQL中进行,通过workbench(版本6.3)操作。 子查询这里说白了就是select语句嵌套,如select * from (select cust_name from customers) 联结笛卡尔积 高级联结 如果3个以上的表,那怎样联结? 3个 use test;select cust_name,cust_contactfrom (customers inner join orderson customers.cust_id = orders.cust_id)inner join orderitems on...
精益数据分析-笔记
市场细分市场细分(market segmentation)是指营销者通过市场调研,依据消费者的需要和欲望、购买行为和购买习惯等方面的差异,把某一产品的市场整体划分为若干消费者群的市场分类过程。每一个消费者群就是一个细分市场,每一个细分市场都是具有类似需求倾向的消费者构成的群体。 同期群分析同期群分析(Cohort Analysis,亦称群组分析)的主要目的是分析相似群体随时间的变化(比如用户的回访)。 A/B测试A/B 测试,简单来说,就是为同一个目标制定两个方案(比如两个页面),让一部分用户使用 A 方案,另一部分用户使用 B 方案,记录下用户的使用情况,看哪个方案更符合设计。 多变量测试我认为,多变量测试,其实就是类似于做实验的时候的多因素实验。你不知道哪个因素对结果(指标)的影响是最大的,类似于通过方差分析等手段来判断。只不过,多变量测试的结果,可能更加直观。 好久没发过,东西了。这段时间,毕业、入职,也断了学习。 进入公司,虽然没了自由,但是所幸,总算可以静下心来,沉淀一下。 无论什么时候,坚持学习,才能不断进步。 星空大海的未来三十多年,从今年...
python
pyecharts安装地图包 pip install echarts-countries-pypkg 报错Unknown or unsupported command 'install' 这可能是因为我最近装了很多的环境导致的冲突,比如php,java环境等等。 解决方法: pip.exe install echarts-countries-pypkg 参考:pip命令提示unknow or unsupported command install解决方法 连接两个表gg_commu_data = pd.merge(gg_data,way_commu_data,on = 'call_id',how = 'left') 报错 ValueError: You are trying to merge on int64 and object columns. If you wish to proceed you should use pd.concat 这是,主键数据类型不同,一个是int,一个是对象。解决方法,更改数据类型。...
numpy统计函数和布尔型数组
统计函数可以通过numpy的统计函数对整个数组或者某个轴向的数据进项统计计算。 所谓的轴向,其实就是n维向量的某一维。或者说某一行,某一列。 sum对数组(向量)中全部或某个轴向的元素求和,长度为0,则sum为0.mean算数平均数,作用范围同sum,长度为0,结果为NaN。 In [1]: import numpy as npIn [2]: x = np.arange(9).reshape(3,3)#二维In [3]: xOut[3]:array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])In [4]: x.sum()Out[4]: 36In [5]: np.sum(x[0])Out[5]: 3In [6]: np.sum(x[:,0])Out[6]: 9In [7]: x.mean()Out[7]: 4.0In [8]: np.mean(x[0])Out[8]: 1.0In [9]: np.mean(x[:,1])Out[9]: 4.0In [10]: y = np.arange(18).reshape(2,3,3)#...