সত্যি বলতে পুরো ডাটা সায়েন্স নিয়ে কাজ করতে গেলে নানা রকম টুল, সফটওয়্যার, প্ল্যাটফর্ম ইত্যাদির সাহায্য লাগতেই পারে। এর কোন নির্দিষ্ট সীমা পরিসীমা নাই। কখন কি লাগবে সেটা অবস্থাই বলে দিবে। আমরা যেহেতু এই কোর্সে ডাটা সায়েন্সের ভিত্তিটা নিয়ে আলোচনা করবো যাকে বলে intuition, তাই আমরা বিস্তর জিনিসপত্র ইন্সটল দেয়ার কথা বলে পাঠককে নিরুৎসাহিত করবো না। যখন যেটার প্রয়োজন আসবে তখন সেই টুল নিয়ে কথা বলে সেটার ইন্সটলেশন নিয়ে কথা বলা যাবে।
প্রথমেই আমাদের কম্পিউটারের সাহায্য লাগবে। তাই না? নাহলে এতো এতো ডাটা নিয়ে কি খাতা কলমে কাজ করতে চাচ্ছেন? আর কম্পিউটারকে দিয়ে কাজ করিয়ে নিতে হলে তার ভাষায় তাকে ইন্সট্রাকশন দিতে হবে। এটা তো জানেনই। তাই এই ভাষা হিসেবে আমরা আপাতত Python প্রোগ্রামিং ল্যাঙ্গুয়েজ ব্যবহার করবো। Python প্রোগ্রামিং সম্বন্ধে পড়াশুনা করতে এই কোর্সটি এখনি পড়া শুরু করতে পারেন - বাংলায় পাইথন
তো আপনার কম্পিউটারে পাইথন ইন্সটল করে নিন (উপড়ে উল্লেখিত কোর্সেই বিস্তারিত লেখা আছে)। সাথে কাজের সুবিধার্থে Jupyter Notebook ইন্সটল করে নিন। এর মাধ্যমে একটা ডকুমেন্টকে ওয়েব ব্রাউজারে ওপেন করে সেখানে বিভিন্ন কিছু লিখে এবং আলোচনা করে করে আগানো যায় এবং একটি ডকুমেন্টে বিভিন্ন ব্লক বা সেল তৈরি করে সেগুলোর মধ্যে কোড লেখা যায়। আবার আগের ধাপ বা সেলে রান করা কোড পরের ধাপেও অ্যাক্সেস করা যায়। এমনকি বাংলা লেখা এবং কোড সাথে ফটো বা ডিসপ্লে মিলিয়ে তৈরি হওয়া একটি কম্প্যাক্ট পেইজকে অন্য কারো সাথে সহজে শেয়ারও করতে পারবেন। সেই লোক তার কম্পিউটারে প্রথমে পাইথন এবং তারপর Jupyter Notebook ইন্সটল দিয়ে Jupyter Notebook এর মাধ্যমেই সেই ডকুমেন্টকে রান করাতে পারবেন। অবশ্যই উনি চাইবেন একটু পড়ে এবং একটু করে কোড রান করে কাজের প্রগ্রেস সম্বদ্ধে স্বচ্ছ ধারনা নিতে। আর এখানেই Notebook এর উপকার খেয়াল করার মত। jupyter Notebook সম্পর্কে ধারনা না থাকলে একটু অন্য কোথাও থেকে আপাতত দেখে আসতে পারেন। এটা তেমন কিছু না। একটা ওয়েব অ্যাপ। এতে করে ব্রাইজারের মধ্যে একটা পেজে কোড এবং বাংলা ইংলিশ মিলিয়ে লেখা যায় এবং কোড গুলোকে রানও করা যায়। আর পুরো ডকুমেন্টের রানটাইম একটাই থাকে। এটাও খুব সহজে প্যাকেজ আকারেই ইন্সটল করা যায় এবং একটা কমান্ড দিয়েই রান করানো যায়।
আবারও বলি, Jupyter Notebook একটি ওপেন সোর্স ওয়েব অ্যাপ্লিকেশন যার মাধ্যমে লাইভ কোড (ইনস্ট্যান্ট রানেবল), কমেন্ট, ভিজুয়ালাইজেশন, ফর্মুলা ইত্যাদি মিশিয়ে ইন্ট্যারেক্টিভ ডকুমেন্ট তৈরি, শেয়ার এবং রান করা যায়। jupyter notebook এর ফাইল এক্সটেনশন .ipynb
ডকুমেন্ট তথা ফাইলটি অন্য কাউকে আমি শেয়ার করলে সে পুরোটা ধাপে ধাপে পড়ে বুঝতে পারবে। আর যদি তার jupyter notebook ইন্সটল করা থাকে তাহলে সেখানে এই ফাইলকে ইম্পোরট করে কোড গুলো আপডেট ও রান করে দেখতে পারে।
এখনো না বুঝে থাকলে আর নিচে পড়ার দরকার নাই। আগে ঘুরে আসতে হবে এখানে
আপাতত বিভিন্ন টুল বলতে পাইথনের জন্য সহজলভ্য বেশ কিছু লাইব্রেরী আমাদের ইন্সটল করে নিতে হবে। যেমন আপাতত - numpy এবং matplotlib ইন্সটল করে নিন। খুব সহজে আপনার পাইথন এনভায়ারনমেন্টের সাথে ইন্সটল করে নিতে কমান্ড ইস্যু করতে পারেন - pip install numpy matplotlib
অর্থাৎ এভাবে আপনি পাইথনের অফিসিয়াল প্যাকেজ ইনডেক্স থেকে pip টুলের মাধ্যমে নির্দিষ্ট কোন প্যাকেজ ইন্সটল করে নিতে পারবেন। ইন্সটল হওয়া প্যাকেজকে পরবর্তীতে আপনার পাইথন প্রোগ্রামে ব্যবহার করতে পারবেন।
numpy কি?
পাইথনে সায়েন্টিফিক কম্পিউটিং এর জন্য অতি প্রয়োজনীয় একটি লাইব্রেরী। অনেকে একে সাধারণ ভাবে ক্যালকুলেশন লাইব্রেরী বা ম্যাট্রিক্স লাইব্রেরীও বলে থাকে। লিনিয়ার অ্যালেজেব্রা, ফুরিয়ার ট্রান্সফর্ম, রেন্ডোম নাম্বার জেনারেশন এর সুবিধা সহ N-dimesional Array অবজেক্ট সাপোর্ট আছে। এতে করে অনেক জটিল ক্যালকুলেশন কম কোড লিখেই করা যায়।
import numpy as np
a = np.array([2,3,4])
a
array([2, 3, 4])
আরও একটি উদাহরণ যেখানে 15 টি এলিমেন্ট তৈরি করে সেগুলোকে 3x5 (রোxকলাম) স্ট্রাকচারে কনভার্ট করা হয়েছে ম্যাট্রিক্স এর মত করে পরবর্তীতে ব্যবহার করার জন্য।
a = np.arange(15).reshape(3, 5)
a
array([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14]])
উপরের অ্যারে-র চেহারা চেক করা যেতে পারে নিচের মত করে,
a.shape
(3, 5)
পাইথনের ডিফল্ট ডাটা স্ট্রাকচার গুলো দিয়ে যে কাজ গুলো করা প্রায় অসম্ভব এবং সময় সাপেক্ষ সেগুলোর জন্য এই লাইব্রেরী বিশাল এক সমাধান।
matplotlib কি?
matplotlib এর মাধ্যমে প্রায় সব রকম গ্রাফিক্যাল প্লটিং করা যায়। নিচে এর একটি সহজ ব্যবহার দেখানো হয়েছে।
%matplotlib inline
from matplotlib import pyplot as plt
x = np.array(range(10))
y = np.array(range(10))
plt.plot(x, y)
plt.show()