Въведение в R CSV файлове

CSV файловете се използват широко за съхраняване на информацията в табличен формат, като всеки ред е запис на данни. За да четем, пишем или манипулираме данни в R, трябва да имаме на разположение някои данни при нас. Данните могат да бъдат намерени в интернет или могат да бъдат събрани от различни източници, като например анкети. С R можете да четете, записвате и редактирате данните, които се съхраняват във външна среда. R може да чете и записва данни от различни формати като XML, CSV и excel. В тази статия ще видим как R може да се използва за четене, запис и извършване на различни операции върху CSV файлове.

Създаване на CSV файл в R

В този раздел ще видим как кадър с данни може да бъде създаден и експортиран в CSV файла в R. В първия ще създадем рамка с данни, която се състои от променливи служител и съответната заплата.

> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)

След като кадърът с данни е създаден, е време да използваме функцията за износ на R, за да създадем CSV файл в R. За да експортираме рамката от данни в CSV, можем да използваме кода по-долу.

> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)

В горния ред код предоставихме пътека директория за нашата слава на данните и съхранихме рамката от данни във формат CSV. В горния случай CSV файлът беше запазен на моя личен десктоп. Този конкретен файл ще бъде използван в нашия урок за извършване на множество операции.

Четене на CSV файлове в R

Докато извършваме анализи с R, в много случаи се изисква да четем данните от CSV файла. R е много надежден, докато четете CSV файлове. В горния пример създадохме файла, който ще използваме за четене с помощта на командата read.csv. По-долу е примерът да направите това в Р.

> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df

Горната команда чете файла Employee.csv, който е достъпен на работния плот и показва този в R studio. Командата Header предполага, че заглавката е достъпна за набора от данни, а командата sep означава, че данните са разделени със запетаи.

Напишете CSV файлове в R

Писането в CSV файл е една от най-полезните функции, налични в R за анализатор на данни. Това може да се използва за записване на редактиран CSV файл в нов CSV файл, за да се анализират данните. Командата Write.csv се използва за записване на файла в CSV.

В долния код df в рамката с данни, в която са налични нашите данни, append се използва, за да се уточни, че новият файл е създаден, вместо да добавя или презаписва в стария файл. Добавяне на невярно предполага, че е създаден нов CSV файл. Sep представлява полето, разделено със запетая.

# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)

CSV операции

CSV операциите са необходими за проверка на данните, след като са били заредени в системата. R има няколко вградени функционалности за проверка и проверка на данните. Тези операции предоставят пълна информация относно набора от данни.

Една от най-често използваните команди е обобщение.

> summary(df)

Командната обобщена информация ни предоставя статистически данни за колоните. Числовата променлива е описана по статистически начин, която включва статистически резултати като средни, min, медиани и max. В горния пример, две променливи, които са Служител и Заплата, са разделени, а статистиката за числовата променлива, която е Заплата, ни е показана.

Командата View () се използва за отваряне на набора от данни в друг раздел и проверка ръчно.

> View(df)

Функцията Str ще предостави на потребителите повече подробности относно колоната на набора от данни. В примера по-долу можем да видим, че променливата Employee има Factor като тип данни, а променливата Salary има int (integer) като тип данни.

> str(df)

В много случаи ще трябва да видим общия брой редове, налични в случай на големия набор от данни, за който можем да използваме командата nrow (). Моля, вижте примера по-долу.

> # to show the total number of rows in the dataset
> nrow(df)

По подобен начин за показване на общия брой колони, можем да използваме команда ncol ()

> ncol(df)

R ни позволява да показваме желания брой редове с помощта на командата по-долу. Когато техният n брой редове е наличен в набора от данни, можем да определим диапазона от редове, които ще се показват.

> # to display first 2 rows of the data
> df(1:2, )

Операцията с данни се извършва в големия набор от данни. За илюстрация съм изтеглил NI пощенски код с отворен код от интернет.

> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)

В горния набор от данни можем да видим, че имената на заглавия липсват и има много нулеви стойности. Наборът от данни трябва да бъде почистен, за да бъде готов за анализ. В следващата стъпка заглавките ще бъдат съответно имена.

> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"

Сега нека да преброим броя на липсващите стойности в рамката от данни и след това да ги премахнем съответно.

> # count of all missing values
> table(is.na (NiPostCode))

От горната команда можем да видим, че общият брой заготовки или NA в рамката от данни е близък до 5445148. Премахването на всички нулеви стойности ще доведе до загуба на огромното количество данни, следователно е разумно да премахнете колоните, където повече от половината от 50% от данните липсват.

> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)

заключение

В този урок видяхме как CSV файловете могат да се създават, четат и добавят с помощта на операции в R. Научихме как да създадем нов набор от данни в R и след това да го импортираме в CSV формат. Освен това видяхме множество операции като преименуване на заглавието и преброяване на броя на редовете и колоните.

Препоръчителни статии

Това е ръководство за R CSV файлове. Тук обсъждаме създаването, четенето и писането на CSV файл в R с CSV операциите. Можете също да разгледате следната статия, за да научите повече -

  1. JSON срещу CSV
  2. Процес за извличане на данни
  3. Кариери в анализа на данни
  4. Excel срещу CSV

Категория: