R_relocate()_列の並び替え_20240908

Topic(Purpose / Outcome:目的・期待される成果)

Conductor
Conductor

relocateはカラムの順序を変更する

Visualization(How / Output:事実整理 / 最終ゴール)

Visualizer
Visualizer

今回はスキップ

Script Design / Summary(How:設計図・概要・論理構築)

Wrangler
Wrangler

全体像はこんな感じ

# LIBRARIES ----
library(tidyverse)

# DATA ----
mpg
# mpgとはrのデータセットの一つ。車の燃費に関するデータセット。
?mpg

# SELECT VS RELOCATE ----

# - Select is like filter() for columns
mpg %>%
    select(model, manufacturer, class, year)

# - Relocate is like arrange() for columns
mpg  %>%
    relocate(model, manufacturer, class, year)

?relocate

# 1.0 RELOCATE BY COLUMN NAME ----
# - Move single column by position

mpg %>%
    relocate(manufacturer, .after = class)
    # .after = class でclassの後ろにmanufacturerを移動

?last_col

mpg %>%
    relocate(manufacturer, .after = last_col())
    # last_col() で最後の列の後ろに移動(最後のカラム名を指定しなくてよい)
    # つまり最後の列に持っていく指示

mpg %>%
    relocate(manufacturer, .after = last_col(offset = 1))
    # last_col(offset = 1) で最後の列の前に移動。2の場合は2つ前に移動。


# 2.0 RELOCATE BY DATA TYPE ----
# - Move multiple columns by data type

mpg %>%
    relocate(where(is.numeric))
    # 数値型のカラムを最初に移動

mpg %>%
    relocate(where(is.character))
    # 文字型のカラムを最初に移動

mpg %>%
    relocate(where(is.character), .after = last_col())
    # 文字型のカラムを最後に移動

# 3.0 RELOCATE WITH TIDYSELECT ----

?contains

mpg %>%
    relocate(starts_with("m"), .before = year)
    # mで始まるカラムをyearの前に移動

Raw data / Wrangling / Feature Engineering(抽出~整形)

Raw data(How:生データ抽出元)

Raw data(How:生データ抽出方法)

  • SQL読込: –
  • CSV読込: –
  • API読込 : 〇(mpg)
  • rmarkdown:render()読込:- (.rmdのファイルをtemlate保存しておく必要あり)

Raw data(How:生データの構造 / 種類)

Extractor
Extractor

元々のデータフレーム(mpg)

Wrangling (How: Loading・生データ読込)

Wrangler
Wrangler

Loading

# Script on Rstudio
# Tips: 読み込み先のファイルは「記載するpath名の始まり」からWorking Directoryとして設定する必要性がある。


mpg

Wrangling (How: before output、Output前のデータ構造)

Wrangler
Wrangler

視える化に合わせて編集

特になし。

メモ

  • 行 (row) :レコード、Observation
  • 列 (column):特徴量、変数、次元数、次元の削減(Dimensionality Reduction): 高次元データを少ない次元に圧縮し、モデルの効率を上げるための手法。
  • 値:data point、Feature
  • Wide format:クロス集計表(横持ちデータ)、Long format:縦持ちデータ
  • 情報ソースがWEBサイト(HTMLやCSS)の場合にはどこから抽出するか、が問われるので、HTMLやCSSの知識が必要(スクレイピングを実施するにせよ)。
  • レンダリング(rendering)とはコンピュータがデータを処理して画像や映像、テキストなどを表示させる技術。

参考リンク

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA