アルアカ - Arcadia Academia

Arcadia Academiaは「エンジニアリングを楽しむ」を合言葉に日本のデジタル競争力を高めることをミッションとするテックコミュニティです。

Pythonを使ったデータ分析の基礎:初心者向けガイド

Featured image of the post

Pythonは、その豊富なライブラリと使いやすさから、データ分析に最適なプログラミング言語の一つです。本記事では、Pythonを使ったデータ分析の基礎を解説し、具体的なライブラリや手法を紹介します。初心者でもすぐに実践できるよう、サンプルコードを交えながら説明します。


[目次を開く]

データ分析にPythonを使う理由

  1. 豊富なライブラリ

    Pythonは、データ分析に必要な機能を備えたライブラリ(例:Pandas、NumPy、Matplotlib)が充実しています。

  2. コミュニティのサポート

    Pythonは多くのユーザーに支持されており、オンラインで簡単に情報を見つけられます。

  3. 柔軟性

    データの前処理から可視化、機械学習まで、一つの言語で幅広く対応可能です。


データ分析のワークフロー

  1. データの取得
    • CSV、Excel、データベース、Web APIなどからデータを取り込みます。
  2. データの前処理
    • 欠損値の処理、データ型の変換、不要なデータの削除を行います。
  3. データの可視化
    • データの傾向や分布を把握するためにグラフを作成します。
  4. データの分析
    • 統計手法や機械学習を使ってインサイトを得ます。

必須ライブラリの紹介

以下のライブラリはデータ分析において特に重要です:

  1. Pandas

    データの操作と解析を効率的に行うためのライブラリ。データフレーム(表形式データ)の操作に便利です。

    インストールが未だの場合はpip install pandas でインストールしましょう。

    import pandas as pd
    
    # CSVファイルの読み込み
    data = pd.read_csv('data.csv')
    print(data.head())  # 最初の5行を表示
  2. NumPy

    数値計算のライブラリ。高速な配列操作が可能です。

    インストールが未だの場合はpip install numpy でインストールしましょう。

    import numpy as np
    
    # 配列の作成
    array = np.array([1, 2, 3, 4])
    print(array.mean())  # 平均値を計算
  3. Matplotlib

    データの可視化に特化したライブラリ。折れ線グラフやヒストグラムを作成できます。

    インストールが未だの場合はpip install matplotlib でインストールしましょう。

    import matplotlib.pyplot as plt
    
    # 折れ線グラフの描画
    plt.plot([1, 2, 3], [4, 5, 6])
    plt.title("Sample Plot")
    plt.show()

    以下のようなグラフが手軽につくれます。

    Image in a image block
  4. Seaborn

    Matplotlibをベースにした、より美しいグラフを作成するためのライブラリ。

    インストールが未だの場合はpip install seaborn でインストールしましょう。

    import seaborn as sns
    
    # サンプルデータセットで散布図を描画
    sns.scatterplot(x=[1, 2, 3], y=[4, 5, 6])
    plt.show()

    以下のようなグラフが手軽に作れます。

    Image in a image block

Pythonを使ったデータ分析の実践例

1. データの読み込みと概要確認

Pandasを使ってデータを読み込み、基本的な情報を確認します。

データ読み込み用にexample.csvを作成しましょう。内容は以下のような形で大丈夫です。

example.csv
Name,Age,Category,Income
Alice,25.0,A,50000.0
Bob,30.0,B,60000.0
Charlie,,A,70000.0
David,40.0,B,
,35.0,,80000.0
import pandas as pd

# データの読み込み
df = pd.read_csv('example.csv')

# データの概要を表示
print(df.info())
print(df.describe())

上記のプログラムを実行すると、ターミナルに以下のような形で出力されます。

Image in a image block

2. データの前処理

データに欠損値や外れ値がある場合、前処理が必要です。

# 欠損値の確認
print(df.isnull().sum())

# 欠損値を削除
df = df.dropna()

# カテゴリデータを数値に変換
df['Category'] = df['Category'].map({'A': 1, 'B': 2})
3. データの可視化

MatplotlibやSeabornを使ってグラフを描画します。

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# データの読み込み
df = pd.read_csv('example.csv')

# 欠損値の確認
print(df.isnull().sum())

# 欠損値を削除
df = df.dropna()

# カテゴリデータを数値に変換
df['Category'] = df['Category'].map({'A': 1, 'B': 2})

# ヒストグラムの作成
df['Age'].hist()
plt.title("Age Distribution")
plt.show()

# 散布図の作成
sns.scatterplot(data=df, x='Age', y='Income')
plt.title("Age vs Income")
plt.show()

上記のコードを実行すると以下のようにデータが可視化されます。

Image in a image block
4. データ分析

NumPyを使った統計計算や、Pandasを使ったグループ集計を行います。

import pandas as pd
import numpy as np

# データの読み込み
df = pd.read_csv('example.csv')

# 平均値と中央値の計算
print("Mean Age:", np.mean(df['Age']))
print("Median Income:", np.median(df['Income']))

上記のコードを実行すると以下のようにターミナルに出力されます。

Image in a image block

まとめ

Pythonを使ったデータ分析の基本は、データの取得から前処理、可視化、分析までの流れを理解することです。最初はPandasやMatplotlibを使って簡単な分析を行い、慣れてきたら統計手法や機械学習に挑戦すると良いでしょう。Pythonの強力なエコシステムを活用して、効率的かつ正確なデータ分析を実現しましょう。

あなたを爆速で成長させるメンタリングプログラムはこちらから↓↓

RUNTEQ(ランテック) - 実践型Webエンジニア養成プログラミングスクールの入会