用数据讲故事
讲好一个故事的开始我们必须按照以下的顺序进行,这样才能做好数据的分析,讲好一个数据故事。 明确问题是什么我们做一个汇报、分析、报告等等通常都是为了完成别人的请求,比如你的客户、老板、利益相关者。但是,通常,请求者或者要求者在说出他的需求时并不会详细的说明他的需求是什么,也有可能他认为这是你知道的,不需要讲的。因此我们在完成一个需求时,第一步,必须明确问题是什么。 比如,老板要求我们给出一些互联网金融行业用户流失前的一些挽留措施。我们就必须知道以下问题: 流失的定义是什么?用户注销账户?账户资金为0?等等、、 为什么会流失?是产品的问题?销售的问题?运营的问题?定位流失的原因。 我们挽留的目标是什么?留人?还是留住资金? 等等问题、这里只是抛砖引玉。我们实际情况中需要考虑的可能更多,毕竟我还停留在理想阶段。 其实,概括一下,就是: 背景信息是什么? 受众和决策这是谁? 有什么数据可以支撑这个案例?受众熟悉这些数据? 有什么风险?什么因素会弱化案例?是否需要主动提出? 等等。。。 我们要做什么分析是探索性分析,还是解释性分析。 探索性分析:理解数据并找出...
《谁说菜鸟不会数据分析》读书笔记
花了一段时间学习了下菜鸟读书笔记,最大的感慨是这本书,纯粹是入门级。本书以Excel为主要操作软件,只要稍微有点Excel基础,绝对可以看懂,看完后,觉得对我用处最大的是数据分析的思想,而一些手段,反而是次要的。 以下是在读的过程中的一些学习总结,不足之处,诸君见谅。 1.数据分析内容 数据分析 这一部分,主要介绍了什么数据分析,数据分析步骤,以及作为一个合格的数据分析所需要具备的品质。 总体来说,要进行数据分析,我们首先要知道自己的目的是什么,以及我们所要分析的内容,然后我们需要确定我们采用的数据分析方法,这需要我们知道一些营销或管理模型,从而根据内容确定分析方向。 2.数据分析方法论 数据分析方法论 以前只是知道这些营销理论或者管理理论,现在才隐约知道该怎样使用他们。实践出真知。 3.数据收集 数据收集 这部分是最重要的部分之一,主要介绍了数据收集的一些方法,重点介绍了调查问卷的正确使用方式,并向我们介绍了表的概念,表与SQL语言练习紧密,因为我们现在多数的数据都存储在关系型数据库中,如MySql等,同时,说了一些Excel的小技巧,以前学习了Excel的很多内容,看...
jieba分词
昨天,做的那个数据分析报告用到了jieba分词。但是只是借用了别人的部分代码。具体函数代表什么还不太明白。今天去官网研究了下….. jieba官网简介“结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词 支持自定义词典 MIT 授权协议 安装pip install jieba 分词jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型jieba.cut_fo...
论文排版
王国维先生说,人生有三种境界,论文也是一样。我下面说的方法,主要是因为我受够了论文排版的折磨。然后自己想偷懒,从网上学习,加上自己总结,得出的一个方法。 本文于2013版word操作。 第一步,要解决的问题写论文起始,你必须确定一个问题,你们学校对论文有没有关于论文版心的要求,也就是所谓的每页多少行,每行多少字。如果有,你第一步要做的就是调整好这个问题。如果没有建议你千万别动这个东西。方法如下: 文档网络 第二步,确定文章各个内容所采用的格式1、这一步,你要明确学校对于标题的要求,这些标题包括中文文章标题,英文文章标题,一级、二级、三级、四级、五级内容的标题。其实在这一步我建议大家,做一个excel表格,这样才能有条不紊。 文档格式 知道了以上的东西,我们就要进行下面最重要的操作了。 2、word的菜单选项有一个功能一直在那儿放着,我觉得好像80%的人都没有用过。 样式 这个才是我们的重点。有了它,我们可以结束修改论文格式时70%的繁琐重复操作。 接下来,我们就需要用1中所建立的表格,记录的各项的格式要求。具体操作如下: 点击样式栏右侧下三角–创建新样式。或者点击样...
MySQL安装、输入密码闪退、workbench使用
1、安装安装就不细说了,网上一搜一大堆,但是教程推荐这个: wikihow 网站是wikiHOW,很有意思的网站,比百度经验强大很多。 2、输入密码闪退安装完成后,在开始菜单,打开 开始程序 界面如下: 密码 输入你安装的时候所设置的根密码,回车,本该进入程序,这时,你发现程序闪退。 这一般是由于服务没有开启。 如果你是win10 ,就喊一声“你好小娜,打开服务”,win7之类的就在开始菜单搜索服务。 服务 右击启动,或重新启动。 如果是手动模式,你可以右击属性改为自动。 再去打开MySQL Command line client,输入密码,界面如下,即已正常。 MySQL命令窗口 3、workbench首先搜索,workbench,然后在官网下载安装即可。 workbench 这里有一个问题,如下图: workbench 你必须保证安装之前电脑已安装了二者,如果没有安装,点击二者,转到微软官网,下载相应版本安装即可。这个安装很简单。 安装后打开,界面如下: 欢迎界面 单击加号创建新的连接,连接新的数据库。单击矩形框中,直接打开服务器,这里需要输入密码,即你的...
hexo-next
安装–美化–问题集锦 网上的教程多试7.0版本以下的,因为7.0版本已经继承了很多插件功能,因此我尝试按照别人的教程试一次,报错,而且还是查不到原因的报错,没办法了,只能自己阅读配置文件的注释,自行更改。在此,记录一下。 报错hexo命令报错Cannot find module 'hexo' from 'F:\Hexoblog'ERROR Cannot find module 'hexo' from 'F:\Hexoblog'ERROR Local hexo loading failed in F:\HexoblogERROR Try running: 'rm -rf node_modules && npm install --force' 研究发现,是环境变量的问题,需要将hexo加入环境变量,其一般路径为 F:\Hexoblog\node_modules\.bin注意后面的.bin; 开始我是全局安装,但是一直不知道那里出来问题,后来干脆全部卸载 然后在f盘打开cmd,进行安装, uninsta...
工作知识记录
工作中遇到的概念记录一些工作中遇到的名词缩写及概念&硬件知识&软件知识。 POC测试,即Proof of Concept,属于概念验证。是业界流行的针对客户具体应用的验证性测试,根据用户对采用系统提出的性能要求和扩展需求的指标,在选用服务器上进行真实数据的运行,对承载用户数据量和运行时间进行实际测算,并根据用户未来业务扩展的需求加大数据量以验证系统和平台的承载能力和性能变化。 IVR(Interactive Voice Response)即互动式语音应答,您只须用电话即可进入服务中心,可以根据操作提示收听手机娱乐产品,也可以根据用户输入的内容播放有关的信息。 UAP:UAP是华为的自动排队机名称,是自动呼叫分配(Automatic Call Distribution,ACD)的一种,是现代呼叫中心的组成模块,也是其核心技术。 SEO(Search Engine Optimization):汉译为搜索引擎优化。是一种方式:利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名。 ASR语音识别(Automatic Speech Recogniti...
工作的处理方式
工作经验 做项目,不管是哪个岗位,包括我,现在是运营岗位,与客户对接是最多的。 客户在使用我们的产品的时候,疯狂吐槽我们某一个功能,这就是风险,比如吐槽你的语义,吐槽你的NLP,这就是风险。我们需要领导意识到这个风险。 因为接下来,如果客户与我们合作有二期项目,接下来可能二期的合同还会用到我们的语义。 而这个时候,一期用户对我们的语义印象极差,二期客户可能就不和我们签语义的合同,公司就会有损失。 这就是很大的风险。 我们应该反馈给项目经理,项目经理没有意识到我们就应该越级反馈,被领导骂了又怎样。直到达到应有的效果。 碰到事儿不能怕事儿,要去解决它! 工作习惯 数据是在你身边的,我们要注意到,要注意数据的价值。会议上客户说的数据,我们要注意收集,整理! 这在市场分析的时候,市场的盘子有多大,很有可能会用到。
pandas中轴axis的问题理解
在学习删除方法drop时,碰到了,也突然想明白了,轴是什么意思。 引入: import numpy as npfrom pandas import Series,DataFrame#导入包obj = Series(np.arange(5),index = ['a','b','c','d','e'])#创建Series objobjOut[2]: a 0b 1c 2d 3e 4dtype: int32new_obj = obj.drop('c')#删除'c'new_objOut[5]: a 0b 1d 3e 4dtype: int32objOut[6]: a 0b 1c 2d 3e 4dtype: int32obj.drop(['b','d'])#删除'b','d'Out[7]...
统计学复习
简介 统计学是一门独立的学科。 统计学研究的是随机现象,而数学研究的是确定性的规律。 统计学的应用性很强,许多概念和原理来自于实际需要。 数学在统计学中很重要。 什么是统计学?简单来说,统计学是一门教会我们如何同数据打交道,从中获取有用信息,并得出结论的学科。 统计学定义;统计学是用来收集和分析数据的一门学科和艺术。《大不列颠百科全书》统计学,具体来说,就是一门关于数据收集、整理、描述和分析的学科。 试验设计是统计学的分支。 几个统计学概念1.总体、总体容量(总体量)2.个体4.样本、样本容量(样本量)5.变量(研究对象的特征或属性)、变量值6.随机变量 主要内容数据的收集与描述收集1.文献资料2.观测3.试验(自然科学研究,工业,好的试验设计的重要性)4.问卷调查(社会科学,心理学,市场调研)5.互联网(爬虫,电商)6.物联网技术(会员卡,条形码) 数据的描述性分析这里主要介绍一些基本概念,包括算数平均数,加权平均数,几何平均数,调和平均数,极差,四分位差,平均差,方差,标准差,离散系数,峰度等。还复习了下数据的标准化,及是非标志的平均数和标准差。 统计抽样推断统...





