آشنایی با 10 تا از بهترین کتابخانه های پایتون برای یادگیری ماشین -

در دنیای امروز، یادگیری ماشین به یکی از مهم ‌ترین شاخه ‌های فناوری تبدیل شده و پایتون به ‌عنوان محبوب ‌ترین زبان برنامه ‌نویسی این حوزه، ابزارهای قدرتمندی را در اختیار متخصصان و علاقه ‌مندان قرار داده است. اگر می‌ خواهید به دنیای هوش مصنوعی و تحلیل داده وارد شوید، آشنایی با انواع کتابخانه پایتون یادگیری ماشین یک گام اساسی خواهد بود. این کتابخانه‌ ها فرآیندهای پیچیده را ساده می‌کنند و به شما امکان می ‌دهند مدل‌ های هوشمند را با کمترین کدنویسی توسعه دهید. اما در میان انبوه ابزارهای موجود، کدام‌ یک کاربردی ‌تر و موثرترند؟ در این مطلب، شما را با 10 کتابخانه برتر پایتون برای یادگیری ماشین آشنا می‌کنیم که مسیر ورود و پیشرفت در این حوزه را برایتان هموار خواهند کرد.

10 تا از بهترین کتابخانه ‌های پایتون یادگیری ماشین

اینکه بدانید یادگیری ماشین چیست و چه مزایا و کاربردهایی در عصر مدرن امروزی دارد، اهمیت فوق العاده ای پیدا کرده است. از دلایل اهمیت این موضوع می توانیم به امکان خودکارسازی وظایف و افزایش بهره وری، تحلیل داده های حجیم و تصمیم گیری بهتر و … اشاره کنیم. بنابراین در ادامه، 10 مورد از انواع کتابخانه‌ پایتون یادگیری ماشین را معرفی و به ‌طور جامع بررسی می‌کنیم.

1. TensorFlow

اولین کتابخانه پایتون یادگیری ماشینTensorFlow است. اما تنسورفلو چیست؟ تنسورفلو یک کتابخانه متن ‌باز برای محاسبات عددی و یادگیری ماشین است که توسط تیم Google Brain توسعه یافته است. این کتابخانه به‌ ویژه در پیاده‌ سازی شبکه ‌عصبی و یادگیری عمیق کاربرد گسترده‌‌ای دارد. TensorFlow با استفاده از نمودارهای جریان داده، محاسبات را مدل ‌سازی می‌کند و از پردازش موازی بر روی CPU و GPU پشتیبانی می‌کند. از مهم ترین ویژگی های آن می توانیم به موارد زیر اشاره کنیم:

انعطاف ‌پذیری بالا: امکان تعریف و آموزش انواع مدل ‌های یادگیری ماشین
مقیاس ‌پذیری: قابلیت اجرا بر روی دستگاه ‌های مختلف از جمله موبایل و سرور
پشتیبانی از زبان‌ های مختلف: علاوه بر پایتون، از زبان ‌هایی مانند C++ و جاوا نیز پشتیبانی می‌کند.
رایگان و منبع باز
اشکال زدایی با TensorBoard آسان
از TPU برای محاسبات سریعتر در مقایسه با GPU و CPU استفاده می کند.

مثال: در این مثال، یک مدل شبکه عصبی ساده با استفاده از TensorFlow و Keras ساخته می ‌شود:

pip install tensorflow
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.datasets import mnist
from tensorflow.keras.utils import to_categorical

# Load and preprocess the MNIST dataset
(X_train, y_train), (X_test, y_test) = mnist.load_data()
X_train, X_test = X_train / 255.0, X_test / 255.0  # Normalize pixel values
y_train, y_test = to_categorical(y_train), to_categorical(y_test)  # One-hot encode labels

# Build a simple neural network model
model = Sequential([
    Flatten(input_shape=(28, 28)),
    Dense(128, activation='relu'),
    Dense(64, activation='relu'),
    Dense(10, activation='softmax')
])

# Compile the model with an optimizer and loss function
model.compile(optimizer=Adam(), loss='categorical_crossentropy', metrics=['accuracy'])

# Train the model
model.fit(X_train, y_train, epochs=5, batch_size=32, validation_split=0.2)

# Evaluate the model
test_loss, test_accuracy = model.evaluate(X_test, y_test)
print("Test Accuracy:", test_accuracy)

2. PyTorch

دومین کتابخانه پایتون یادگیری ماشین PyTorch است. یک کتابخانه متن ‌باز یادگیری ماشین که توسط Facebook’s AI Research Lab توسعه یافته است. این کتابخانه به‌ خاطر سادگی و انعطاف‌ پذیری در ساخت و آموزش مدل‌ های یادگیری عمیق شناخته می‌ شود. PyTorch از نمودارهای محاسباتی پویا استفاده می‌کند که امکان تغییر و بررسی مدل ‌ها در زمان اجرا را فراهم می‌کند. از بارزترین ویژگی های آن می توانیم به لیست زیر اشاره کنیم:

نمودارهای محاسباتی پویا: امکان تغییر ساختار مدل در حین اجرا
پشتیبانی قوی از GPU: استفاده بهینه از GPU برای تسریع محاسبات
جامعه کاربری فعال: منابع آموزشی و پشتیبانی گسترده

مثال: در این مثال، یک مدل شبکه عصبی ساده با استفاده از PyTorch ساخته می ‌شود:

pip install torch
import torch
import torch.nn as nn
import torch.optim as optim

# Define a simple neural network
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# Initialize model, loss function, and optimizer
model = SimpleNN()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Dummy input and output tensors
inputs = torch.randn(64, 784)  # Batch of 64, 784 features (28x28 image flattened)
labels = torch.randint(0, 10, (64,))  # Random target labels

# Training step
optimizer.zero_grad()               # Clear gradients
outputs = model(inputs)             # Forward pass
loss = criterion(outputs, labels)   # Calculate loss
loss.backward()                     # Backward pass
optimizer.step()                    # Update weights

3. Scikit-Learn

سومین کتابخانه پایتون یادگیری ماشین Scikit-Learn است. یکی از معروف ‌ترین کتابخانه‌ های پایتون برای یادگیری ماشین که بر پایه‌ی کتابخانه ‌های NumPy و SciPy ساخته شده است. این کتابخانه مجموعه ‌ای از ابزارها برای داده‌ کاوی و تحلیل داده‌ ها فراهم می‌کند و شامل الگوریتم‌ های مختلفی مانند طبقه‌ بندی، رگرسیون و خوشه ‌بندی است. از مهم ترین ویژگی های این کتابخانه عبارتند از:

رابط کاربری ساده: مناسب برای مبتدیان و حرفه ‌ای ‌ها
الگوریتم‌ های متنوع: پشتیبانی از الگوریتم‌ های نظارت ‌شده و نظارت ‌نشده
ابزارهای پیش ‌پردازش داده: امکاناتی برای نرمال ‌سازی، استانداردسازی و انتخاب ویژگی‌ ها

مثال: در این مثال، از Scikit-Learn برای ایجاد یک مدل رگرسیون خطی استفاده می‌ شود:

pip install scikit-learn
from sklearn import datasets, model_selection, preprocessing, metrics
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn import datasets, model_selection, preprocessing, metrics
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# Load a sample dataset
data = datasets.load_iris()
X, y = data.data, data.target

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.2, random_state=42)

# Data preprocessing - Standardize features
scaler = preprocessing.StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Initialize a classifier (e.g., Random Forest)
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)  # Train the model

# Make predictions and evaluate the model
y_pred = model.predict(X_test)
accuracy = metrics.accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Example with Logistic Regression
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy = metrics.accuracy_score(y_test, y_pred)
print("Logistic Regression Accuracy:", accuracy)

4. Keras

Keras یک کتابخانه سطح بالا برای ساخت و آموزش شبکه ‌های عصبی است که بر روی کتابخانه ‌هایی مانند TensorFlow و Theano اجرا می ‌شود. این کتابخانه به‌ خاطر سادگی و قابلیت استفاده آسان، در بین توسعه‌ دهندگان محبوبیت زیادی دارد. از مهم ترین ویژگی های آن عبارتند از:

رابط کاربری ساده و ماژولار: امکان ساخت مدل ‌ها به ‌صورت سریع و آسان
پشتیبانی از شبکه ‌های عصبی مختلف: شامل شبکه ‌های عصبی کانولوشن (CNN) و بازگشتی (RNN)
ادغام با TensorFlow: امکان استفاده از قابلیت ‌های TensorFlow در Keras

مثال: در این مثال، یک مدل شبکه عصبی با استفاده از Keras می سازیم:

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# تعریف مدل
model = Sequential([
    Dense(64, activation='relu', input_shape=(784,)),
    Dense(10, activation='softmax')
])

# خلاصه‌ای از مدل را چاپ کنید
model.summary()

# کامپایل مدل
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# آموزش مدل (فرض کنید داده‌های آموزشی و تست آماده‌اند)
# model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_test, y_test))

5. NumPy

دیگر کتابخانه پایتون یادگیری ماشین NumPy (Numerical Python) است. NumPy، یکی از اساسی ‌ترین کتابخانه‌ های پایتون برای محاسبات عددی و علمی است. این کتابخانه امکان کار با آرایه‌ های چند بعدی و انجام عملیات ریاضی پیچیده را فراهم می‌کند. بسیاری از کتابخانه ‌های دیگر مانند TensorFlow و Scikit-Learn بر پایه‌ی NumPy ساخته شده‌ اند. از مهم ترین ویژگی های این کتابخانه می توانیم به موارد زیر اشاره کنیم:

آرایه ‌های چند بعدی: امکان تعریف و کار با آرایه ‌های n-بعدی با کارایی بالا
توابع ریاضی پیشرفته: شامل توابعی برای جبر خطی، تبدیل فوریه و عملیات تصادفی
یکپارچگی با سایر کتابخانه‌ ها: بسیاری از کتابخانه ‌های پایتون برای یادگیری ماشین از ساختارهای داده ‌ای NumPy استفاده می‌کنند.

مثال: در این مثال، یک آرایه‌ی دو ‌بعدی با استفاده از NumPy ایجاد و برخی عملیات روی آن انجام می ‌شود:

pip install numpy
# Create an array with a range of numbers
array = np.arange(10)        

# Reshape an array into a matrix               
matrix = array.reshape(2, 5)       

# Generate an array of zeros        
zeros = np.zeros((3, 3))                        

# Generate an array of random numbers
random_numbers = np.random.rand(4, 4)           

# Calculate the mean of an array
mean_value = np.mean(array)                     

# Find the maximum value in an array
max_value = np.max(array)                      

# Compute the dot product of two matrices
dot_product = np.dot(matrix, matrix.T)          

# Get unique elements in an array
unique_elements = np.unique(array)

6. SciPy

SciPy (Scientific Python) کتابخانه ‌ای است که بر پایه‌ی NumPy ساخته شده و ابزارهای پیشرفته ‌تری برای محاسبات علمی و مهندسی فراهم می‌کند. این کتابخانه شامل ماژول ‌هایی برای بهینه‌ سازی، جبر خطی، انتگرال‌گیری و پردازش سیگنال است. مهم ترین ویژگی های این کتابخانه پایتون یادگیری ماشین به شرح زیر هستند:

بهینه ‌سازی: توابعی برای یافتن مینیمم و ماکزیمم توابع
جبر خطی: ابزارهایی برای حل معادلات خطی و محاسبه‌ی مقادیر ویژه
پردازش سیگنال: توابعی برای فیلتر کردن و تحلیل سیگنال ‌ها

مثال: در این مثال، از SciPy برای حل یک معادله‌ی دیفرانسیل استفاده می ‌شود:

pip install scipy
import numpy as np
from scipy import stats, optimize, integrate

# 1. Statistical functions - Z-score normalization
data = np.array([1, 2, 3, 4, 5])
z_scores = stats.zscore(data)
print("Z-scores:", z_scores)

# 2. Optimization - Finding the minimum of a function
def f(x):
    return x**2 + 5*np.sin(x)

result = optimize.minimize(f, x0=0)
print("Function minimum:", result.x)

# 3. Integration - Calculating the integral of a function
result, error = integrate.quad(lambda x: x**2, 0, 4)
print("Integral result:", result)

7. Pandas

مورد بعدی از لیست بهترین انواع کتابخانه پایتون یادگیری ماشین، Pandas است. Pandas، کتابخانه ‌ای قدرتمند برای تحلیل و ویرایش داده‌ ها در پایتون است. این کتابخانه ساختارهای داده ‌ای سطح بالا مانند DataFrame را فراهم می‌کند که برای کار با داده‌ های جدولی بسیار مناسب است. از مهم ترین ویژگی های آن عبارتند از:

DataFrame: ساختاری برای ذخیره و کار با داده ‌های جدولی مشابه با جداول دیتابیس یا صفحات اکسل
ابزارهای ویرایش داده: توابعی برای فیلتر کردن، گروه‌ بندی و ترکیب داده‌ ها
سازگاری با فرمت‌ های مختلف: امکان خواندن و نوشتن داده ‌ها از/ به فرمت ‌هایی مانند CSV، Excel، و SQL

مثال: در این مثال، یک DataFrame از یک فایل CSV وارد و برخی عملیات روی آن انجام می ‌شود:

pip install pandas
import pandas as pd
# Load dataset from CSV file
df = pd.read_csv('data.csv')

# Preview the first and last rows of the DataFrame
print(df.head())  # First 5 rows
print(df.tail())  # Last 5 rows

# Generate summary statistics for numerical columns
print(df.describe())

# Check for missing values in each column
print(df.isnull().sum())

# Fill missing values in a column with the column mean
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

# Convert categorical variables into dummy/indicator variables
df = pd.get_dummies(df, columns=['categorical_column'])

8. Matplotlib

Matplotlib یکی دیگر از بهترین انواع کتابخانه پایتون یادگیری ماشین است. این کتابخانه برای مصورسازی داده‌ ها در پایتون است. به کمک این کتابخانه امکان ایجاد نمودارهای متنوعی مانند خطی، میله‌ ای، پراکندگی و هیستوگرام وجود دارد. از مهم ترین ویژگی های آن عبارتند از:

تنوع در نمودارها: پشتیبانی از انواع نمودارهای دو بعدی و سه ‌بعدی
سفارشی ‌سازی بالا: امکان تغییر در رنگ، اندازه و استایل نمودارها
یکپارچگی با سایر کتابخانه ‌ها: قابلیت استفاده همراه با Pandas و NumPy برای مصورسازی داده‌ ها

مثال: در این مثال، یک نمودار خطی با استفاده از Matplotlib رسم می‌ شود:

pip install matplotlib
import matplotlib.pyplot as plt
# Example of a simple line plot
plt.plot([1, 2, 3, 4], [1, 4, 9, 16])

plt.xlabel('X-axis Label')
plt.ylabel('Y-axis Label')

plt.title('Simple Line Plot')

plt.show()

9. Theano

Theano یک کتابخانه ‌ی متن ‌باز برای محاسبات عددی در پایتون است که به ‌ویژه در یادگیری ماشین و شبکه ‌های عصبی کاربرد دارد. این کتابخانه امکان تعریف، بهینه ‌سازی و ارزیابی توابع ریاضیاتی پیچیده را فراهم می‌کند. اگرچه توسعه‌ی فعال آن در سال 2017 متوقف شد، اما هنوز هم در برخی از پروژه ‌های تحقیقاتی مورد استفاده قرار می‌گیرد. از مهم ترین ویژگی های آن عبارتند از:

بهینه ‌سازی خودکار: Theano محاسبات را بهینه می‌کند و از GPU برای سرعت بخشیدن به پردازش ‌ها بهره می ‌برد.
مدل‌ سازی توابع ریاضی پیچیده: مناسب برای ساخت مدل ‌های یادگیری ماشین با استفاده از معادلات ریاضی
پشتیبانی از تفاضل خودکار: امکان محاسبه‌ی گرادیان ‌ها برای بهینه ‌سازی مدل ‌های یادگیری عمیق

مثال: در این مثال، یک تابع ساده با استفاده از Theano تعریف و مقدار مشتق آن محاسبه می ‌شود:

import theano
import theano.tensor as T
# تعریف متغیرx = T.dscalar('x')
# تعریف تابعy = x ** 2 + 2 * x + 1
# محاسبه‌ی مشتقdy_dx = T.grad(y, x)
# ایجاد تابع قابل اجراf = theano.function([x], dy_dx)
# محاسبه‌ی مقدار مشتق در x=2result = f(2)
print(result)  # خروجی: 6

10. XGBoost

آخرین مورد از لیست بهترین انواع کتابخانه پایتون یادگیری ماشین،XGBoost (eXtreme Gradient Boosting) است. این یک کتابخانه‌ ی فوق ‌العاده قدرتمند برای الگوریتم ‌های یادگیری ماشین مبتنی بر درخت تصمیم‌گیری است. این کتابخانه به دلیل کارایی بالا و دقت زیاد، در بسیاری از رقابت‌ های یادگیری ماشین مانند Kaggle استفاده می ‌شود. از مهم ترین ویژگی های آن عبارتند از:

عملکرد بالا: XGBoost از پردازش موازی برای سرعت بخشیدن به آموزش مدل‌ ها استفاده می‌کند.
جلوگیری از بیش‌ برازش: دارای قابلیت ‌هایی مانند تنظیم مقدار گام یادگیری (learning rate) و تنظیم وزن برگ‌ های درخت برای کنترل پیچیدگی مدل
پشتیبانی از داده ‌های بزرگ: می ‌تواند روی مجموعه داده ‌های بسیار بزرگ و با حجم بالا کار کند.

مثال: در این مثال، یک مدل طبقه ‌بندی با استفاده از XGBoost آموزش داده می ‌شود:

import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
# بارگذاری داده‌هاiris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
# تعریف مدلmodel = xgb.XGBClassifier(use_label_encoder=False, eval_metric='mlogloss')
# آموزش مدلmodel.fit(X_train, y_train)
# پیش‌بینیy_pred = model.predict(X_test)
# ارزیابی مدلaccuracy = accuracy_score(y_test, y_pred)
print(f'دقت مدل: {accuracy:.2f}')

در این مطلب، 10 مورد از بهترین کتابخانه ‌های پایتون برای یادگیری ماشین را معرفی کردیم. هر یک از این کتابخانه ‌ها برای هدف خاصی طراحی شده ‌اند، از شبکه‌ های عصبی و یادگیری عمیق و الگوریتم های یادگیری ماشین (مانند Pandas) گرفته تا پردازش داده (مانند TensorFlow و PyTorch) بسته به نوع پروژه و نیازهای شما، می‌ توان از ترکیبی از این ابزارها برای ساخت مدل‌ های قدرتمند و بهینه استفاده کرد.

منبع: metaschool.so

فاطمه صحرائیان1403/12/19

0 14 خواندن این مطلب 9 دقیقه زمان میبرد