%>%来自dplyr包的管道函数,我们可以将其理解为车间里的流水线,经过前一步加工的产品才能进入后一步进一步加工,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。 符号%>%,这是管道操作,其意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置(或剩下唯一一个选项的设置。 简单例子 比如我们要算f(x)=sin((x+1)^2)在x=4的值,可以分为以下三步: 计算a = x+1的值; 计算b = a^2的值; 计算c = sin(b)的值 这样…

2021年6月9日 0条评论 416点热度 1人点赞 ikeguang 阅读全文

R语言利用rvest包爬虫,主要用到函数:read_html()、html_nodes()、html_text()和html_attrs()。 安装这个包:install.packages('rvest') read_html():下载网页; html_nodes():获得指定名称的网页元素、节点; html_text():获得指定名称的网页元素、节点里面的文本; html_attrs():获得指定的网址; 以新浪内地新闻为例 下面是新浪内地新闻网址:http://news.sina.com.cn/china/ 我…

2019年4月6日 0条评论 9633点热度 0人点赞 ikeguang 阅读全文

R语言中的管道%>% %>%来自dplyr包的管道函数,我们可以将其理解为车间里的流水线,经过前一步加工的产品才能进入后一步进一步加工,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。 符号%>%,这是管道操作,其意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置(或剩下唯一一个选项的设置。 简单例子 比如我们要算f(x)=sin((x+1)^2)在x=4的值,可以分为以下三步: 计算a = x+1的值; 计算b = a…

2019年4月4日 0条评论 9016点热度 0人点赞 ikeguang 阅读全文

R语言读写最灵活的文件——txt文件 R语言可以读取很多文件,其中以txt文本文件最为灵活,为什么呢,txt文件可以以任意符号作为分隔符,比如“,”,“\t”,空格,甚至“……&¥¥%¥”等任意自定义的分隔符号。 读取文件 这里先把工作空间切换到D盘下面,默认的一般是C盘的文档,我们要有分层管理文件的概念,否则我们还是一个合格的程序员吗? setwd('D:\\') 读取文本文件主要用read.table(filePath,header = ,sep=) filePath就是文件路径,header表示文件是…

2019年4月3日 0条评论 9259点热度 0人点赞 ikeguang 阅读全文

作为一门高级的数据分析语言,R语言不仅具有其它高级语言的自带大量内嵌函数的方便特性,而且它的一些函数更侧重于数据统计分析,成为越来越多的数据分析人员首选语言。下面就来列一下R中的一些常用函数。与matlab一样,作为第二个以向量式运算作为主要运算方式的编程语言,R的一些函数主要是针对向量的。 作用于向量 >x <- 1:10 >sum(x) #对x中的元素求和 [1] 55 >length(x) #返回x的长度 [1] 10 >prod(x) #求x中所有元素的连乘积 [1] 3628…

2019年4月3日 0条评论 8781点热度 0人点赞 ikeguang 阅读全文

R语言某种程度来说本身就是一个函数库,因为它有大量的函数可供调用,加上函数式编程,使得R语言的功能很强大。但是,有时候,根据实际需要,我们还是需要自己动手编写函数,从而减少代码的缀余与工作量。 与其它语言一样,函数的组成莫过于关键字function、形参、是否返回值。函数的具体用法这里用几个例子说明 调用函数 这里写一个打印函数演示简单的参数传递功能: > a a('hello world!') [1] "hello world!" 写一个函数实现矩阵的乘法: rm(list = ls()) a

2019年4月3日 0条评论 8945点热度 0人点赞 ikeguang 阅读全文

都知道R语言是向量式编程,可是有时候确实需要用到循环语句,这里就介绍R语言里面的主要循环——for循环。 与其它语言的for循环一样,R的for循环可以嵌套for循环或者其它循环。 单循环 > a for(i in 1:length(a)){s print(s) [1] 5150 写一个循环嵌套 s

2019年4月3日 0条评论 8301点热度 0人点赞 ikeguang 阅读全文

R语言中的因子确实不好理解,很多人都这么觉得。在R语言中,因子(factor)表示的是一个符号、一个编号或者一个等级,即,一个点。例如,人的个数可以是1,2,3,4......那么因子就包括,1,2,3,4.....还有统计量的水平的时候用到的高、中、低,也是因子,因为他是一个点。与之区别的向量,是一个连续性的值,例如,数值中有1,1.1,1.2......可以作为数值来计算,而因子则不可以。如果用我自己的理解,简单通俗来讲:因子是一个点,向量是一个有方向的范围。在R中,如果把数字作为因子,那么在导入数据之后,需要…

2019年4月3日 0条评论 8431点热度 0人点赞 ikeguang 阅读全文

Data Frame一般被译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的。Data Frame每一列有列名,每一行也可以指定行名。如果不指定行名,那么就是从1开始自增的Sequence来标识每一行。所以说数据框在R语言中可是个好东西,R中它是用的非常频繁也是非常有用的数据集合。 创建数据集 > a1 <- c(1:3) > a2 <- c('a','b','v') > dat <- data.frame…

2019年4月3日 0条评论 8312点热度 0人点赞 ikeguang 阅读全文

R语言中的数组与其它语言数组类似,它是一种高维的数据结构。维数过高运算会很不方便,所以用的很少,这里介绍是本着不落下任何知识点的目的。万一以后遇到了,虽然不方便,还是可以进行运算的。当然了,矩阵是二维数组,是数组的一种特殊形式。R中的列表是一种特殊的数组,每个元素又可以是一个列表可以含有多个元素,里面可以包含各种数据类型,故功能非常强大。 数组 数组有一个维数向量,可以定义数组的维数,通过array()进行创建数组如下: > arr dim(arr) [1] 2 3 4 > arr , , 1 [,1] [,2] …

2019年4月3日 0条评论 8555点热度 0人点赞 ikeguang 阅读全文
12