R语言如何根据抽样得到训练集与测试集

9,328 阅读

在进行机器学习建模时,我们经常需要建立测试集,用来训练模型,建立训练集用来检验模型。那么,如何在R语言中建立测试集与训练集呢?请看下列代码,本代码给出来很好的注释。

##导入所需要的包
library(DBI)
library(RMySQL)
##连接数据库
conn <- dbConnect(MySQL(), dbname = "qianyang",
                  username="root", password="112233",host="127.0.0.1",port=3306)
#从数据库中抽取data
data <- dbReadTable(conn, "user_info_and_topic_copy_copy")
##查看数据有多少行
n=nrow(data)
n
# n=6643,取80%的数据作为训练集ceiling表示取整
ceiling(0.8*6643)
##set.seed是一个标记,如何还想产生这个数据,可以继续
set.seed(1234)
##6643条数据中,抽取5315条
trainindex <- sample(1:n, 5315)
##建立训练集
trainset <- data[trainindex,]
head(trainset)
##建立测试集
testsed <- data[-trainindex,]

合肥工业大学管理学院 sober_qian qy20115549@126.com

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码