Conductor
relocateはカラムの順序を変更する
Visualizer
今回はスキップ
Wrangler
全体像はこんな感じ
# LIBRARIES ----
library(tidyverse)
# DATA ----
mpg
# mpgとはrのデータセットの一つ。車の燃費に関するデータセット。
?mpg
# SELECT VS RELOCATE ----
# - Select is like filter() for columns
mpg %>%
select(model, manufacturer, class, year)
# - Relocate is like arrange() for columns
mpg %>%
relocate(model, manufacturer, class, year)
?relocate
# 1.0 RELOCATE BY COLUMN NAME ----
# - Move single column by position
mpg %>%
relocate(manufacturer, .after = class)
# .after = class でclassの後ろにmanufacturerを移動
?last_col
mpg %>%
relocate(manufacturer, .after = last_col())
# last_col() で最後の列の後ろに移動(最後のカラム名を指定しなくてよい)
# つまり最後の列に持っていく指示
mpg %>%
relocate(manufacturer, .after = last_col(offset = 1))
# last_col(offset = 1) で最後の列の前に移動。2の場合は2つ前に移動。
# 2.0 RELOCATE BY DATA TYPE ----
# - Move multiple columns by data type
mpg %>%
relocate(where(is.numeric))
# 数値型のカラムを最初に移動
mpg %>%
relocate(where(is.character))
# 文字型のカラムを最初に移動
mpg %>%
relocate(where(is.character), .after = last_col())
# 文字型のカラムを最後に移動
# 3.0 RELOCATE WITH TIDYSELECT ----
?contains
mpg %>%
relocate(starts_with("m"), .before = year)
# mで始まるカラムをyearの前に移動
Raw data / Wrangling / Feature Engineering(抽出~整形)
- Source: https://fueleconomy.gov/
- SQL読込: –
- CSV読込: –
- API読込 : 〇(mpg)
- rmarkdown:render()読込:- (.rmdのファイルをtemlate保存しておく必要あり)
Extractor
元々のデータフレーム(mpg)
Wrangler
Loading
# Script on Rstudio
# Tips: 読み込み先のファイルは「記載するpath名の始まり」からWorking Directoryとして設定する必要性がある。
mpg
Wrangler
視える化に合わせて編集
特になし。
メモ
- 行 (row) :レコード、Observation
- 列 (column):特徴量、変数、次元数、次元の削減(Dimensionality Reduction): 高次元データを少ない次元に圧縮し、モデルの効率を上げるための手法。
- 値:data point、Feature
- Wide format:クロス集計表(横持ちデータ)、Long format:縦持ちデータ
- 情報ソースがWEBサイト(HTMLやCSS)の場合にはどこから抽出するか、が問われるので、HTMLやCSSの知識が必要(スクレイピングを実施するにせよ)。
- レンダリング(rendering)とはコンピュータがデータを処理して画像や映像、テキストなどを表示させる技術。
参考リンク
- Script事例:https://www.business-science.io/
- Rデータの種類:https://ebreha.com/__trashed/