데이터 파악하기


데이터 파악하기

이번에는 데이터를 파악하는 방법에 대해 알아보겠습니다. 특정 데이터를 읽고, 처음, 끝, 행의 개수와 열의 개수, 데이터 들의 속성을 확인해보겠습니다.

  • 상위 데이터 확인

전체 데이터를 확인하지 않고, 상위 6개만을 확인하는 방법입니다.

> df_test = read.csv("csv_exam.csv")
> head(df_test)
  id class math english science
1  1     1   50      98      50
2  2     1   60      97      60
3  3     1   45      86      78
4  4     1   30      98      58
5  5     2   25      80      65
6  6     2   50      89      98

위 코드를 보면 read.csv()로 csv 파일을 읽고난 뒤, head() 함수를 통해 해당 데이터의 상위 6개의 결과를 출력하는 것을 볼 수 있습니다.

상위 데이터를 추가적으로 확인하고자 하는 경우에는 head(데이터 프레임, 개수)와 같은 형식으로 사용할 수 있습니다.

> head(df_test, 10)
   id class math english science
1   1     1   50      98      50
2   2     1   60      97      60
3   3     1   45      86      78
4   4     1   30      98      58
5   5     2   25      80      65
6   6     2   50      89      98
7   7     2   80      90      45
8   8     2   90      78      25
9   9     3   20      98      15
10 10     3   50      98      45
  • 하위 데이터 확인

마찬가지로 하위 데이터 또한 tail() 함수를 이용해 확인할 수 있습니다. 기본적으로 6개의 값이 출력되며 더 많은 값을 확인하기 위해서 tail(데이터 프레임, 개수)형식으로 사용할 수 있습니다.

> tail(df_test)
   id class math english science
15 15     4   75      56      78
16 16     4   58      98      65
17 17     5   65      68      98
18 18     5   80      78      90
19 19     5   89      68      87
20 20     5   78      83      58
> tail(df_test, 10)
   id class math english science
11 11     3   65      65      65
12 12     3   45      85      32
13 13     4   46      98      65
14 14     4   48      87      12
15 15     4   75      56      78
16 16     4   58      98      65
17 17     5   65      68      98
18 18     5   80      78      90
19 19     5   89      68      87
20 20     5   78      83      58
  • 전체 데이터 확인

전체 데이터를 확인하기 위해서는 View()함수를 이용할 수 있습니다. 이 함수를 이용하면 콘솔 창 위에 나타나게 됩니다. 이때 주의할 점은 소문자 v가 아니라 대문자 V 입니다.

view_func

  • 행렬 파악하기

해당 파일의 전체 행과, 열을 확인하고자 하는 경우에는 dim()함수를 사용할 수 있습니다.

> dim(df_test)
[1] 20  5
  • 속성 파악하기 각 데이터들이 어떤 타입을 가지는지 확인할 수 있습니다. 이때 str() 함수를 이용하면 됩니다.
> str(df_test)
'data.frame':	20 obs. of  5 variables:
 $ id     : int  1 2 3 4 5 6 7 8 9 10 ...
 $ class  : int  1 1 1 1 2 2 2 2 3 3 ...
 $ math   : int  50 60 45 30 25 50 80 90 20 50 ...
 $ english: int  98 97 86 98 80 89 90 78 98 98 ...
 $ science: int  50 60 78 58 65 98 45 25 15 45 ..
  • 요약 통계 확인 각 속성들에 대해 최소, 평균, 최대 등의 값을 확인하고자 하는 경우에는 summary() 함수를 이용하면 됩니다.
 > summary(df_test)
       id            class        math          english    
 Min.   : 1.00   Min.   :1   Min.   :20.00   Min.   :56.0  
 1st Qu.: 5.75   1st Qu.:2   1st Qu.:45.75   1st Qu.:78.0  
 Median :10.50   Median :3   Median :54.00   Median :86.5  
 Mean   :10.50   Mean   :3   Mean   :57.45   Mean   :84.9  
 3rd Qu.:15.25   3rd Qu.:4   3rd Qu.:75.75   3rd Qu.:98.0  
 Max.   :20.00   Max.   :5   Max.   :90.00   Max.   :98.0  
    science     
 Min.   :12.00  
 1st Qu.:45.00  
 Median :62.50  
 Mean   :59.45  
 3rd Qu.:78.00  
 Max.   :98.00

여기서 Min은 최소값, 1st Qu는 하위 25%, Median은 중앙 값, Mean은 평균 값, 3rd Qu는 하위 75%, Max는 최대값입니다.




© 2017. by k3y6reak

Powered by k3y6reak