Google Colab cho phép bạn chạy sổ tay Python trong trình duyệt mà không cần thiết lập, GPU miễn phí ở cấp cơ bản và chia sẻ dễ dàng. Nếu bạn mới sử dụng sổ tay, giới hạn phiên hoặc sử dụng dữ liệu của riêng mình thì hướng dẫn này sẽ cung cấp cho bạn thiết lập rõ ràng, có thể lặp lại, hoạt động trên cả gói Miễn phí và Gói Pro.
Trước khi bắt đầu
Tài khoản Google mà bạn có thể sử dụng cho bộ nhớ Drive. Trình duyệt dựa trên Chrome hoặc Safari cập nhật. Internet ổn định; Colab chạy trên các máy ảo từ xa có thể ngắt kết nối nếu không hoạt động. Tùy chọn: một tập dữ liệu nhỏ trong Drive (CSV/Parquet/hình ảnh) để thực hành. Tùy chọn: ngân sách cho Pro/Pro+ nếu bạn muốn GPU nhanh hơn, phiên dài hơn và điện toán có mức độ ưu tiên cao hơn.
1) Tạo sổ ghi chép đầu tiên của bạn
Truy cập Colab, nhấp vào Sổ tay mới. Bạn sẽ thấy một ô mã và một ô văn bản (Markdown). Nhấp vào ô mã và nhấn Shift+Enter để chạy mã đó. Thêm ô văn bản để ghi chú bằng Ctrl+M rồi B (Mac: Cmd+M, rồi B).
2) Chọn phần cứng của bạn (CPU, GPU hoặc TPU)
Mở Thời gian chạy → Thay đổi loại thời gian chạy và chọn Trình tăng tốc phần cứng: Không có (CPU), GPU hoặc TPU. Người dùng miễn phí có sẵn nhiều lựa chọn; Các cấp độ chuyên nghiệp có mức độ ưu tiên cao hơn. Sau khi chuyển đổi, môi trường sẽ khởi động lại.
Mẹo chuyên nghiệp: Nếu bạn cần CUDA, hãy xác minh nó bằng !nvidia-smi ngay sau khi chọn GPU. Đối với TPU, hãy sử dụng các bản dựng TensorFlow hoặc JAX hỗ trợ nó.
3) Hiểu các ô và cách thực thi
Mỗi sổ ghi chép là một danh sách tuyến tính các ô. Các ô mã chạy từ trên xuống dưới và có cùng trạng thái nhân Python. Sử dụng Shift+Enter để chạy một ô và di chuyển hoặc nhấp vào biểu tượng phát. Khởi động lại thời gian chạy bất cứ lúc nào thông qua Thời gian chạy → Khởi động lại phiên để xóa bộ nhớ và các biến.
4) Cài đặt các gói bạn cần
Colab có nhiều thư viện nhưng bạn có thể thêm nhiều thư viện hơn mỗi phiên. Sử dụng dấu chấm than ở đầu để gọi các lệnh shell từ các ô:
!pip install Polars scikit-learn âm mưu !apt-get-qq update && apt-get-qq install-y libspatialindex-dev
Lưu ý: Cài đặt trực tiếp bên trong VM tạm thời và biến mất khi phiên kết thúc. Lưu requirements.txt của bạn vào Drive và cài đặt lại ở đầu sổ ghi chép để có thể lặp lại.
5) Lưu công việc của bạn một cách đáng tin cậy
Colab tự động lưu sổ ghi chép vào Drive của bạn. Sử dụng Tệp → Lưu bản sao trong Drive để sao chép hoặc Tệp → Lưu bản sao vào GitHub để sao lưu trong kho lưu trữ. Xuất bằng Tệp → Tải xuống để nhận .ipynb, .py hoặc .html.
Tại sao nên sử dụng: Bạn giữ một bản sao sạch, có phiên bản và tránh mất mã khi tái chế các phiên.
6) Mang dữ liệu của bạn lên
Bạn có thể tải tệp lên, gắn Google Drive hoặc tìm nạp từ web. Đối với Drive, hãy chạy:
from google.colab import drive drive.mount(‘/content/drive’) # Cấp quyền truy cập vào gấu trúc nhập Drive của bạn dưới dạng pd df=pd.read_csv(‘/content/drive/MyDrive/data/sample.csv’) df.head()
Mẹo chuyên nghiệp: Giữ một thư mục/dữ liệu/tại MyDrive/
7) Sắp xếp các tệp dự án
Tạo bố cục thư mục tối thiểu trong Drive: data/, notebooks/, models/, outputs/. Lưu các mô hình và thành phần lạ vào Drive để chúng tồn tại sau khi VM tắt.
8) Xem RAM, ổ đĩa và thời gian của bạn
Nhấp vào đồng hồ đo RAM/Đĩa để xem tài nguyên. Các phiên cấp miễn phí bị giới hạn thời gian và có thể ngắt kết nối nếu không hoạt động hoặc bị hạn chế về tài nguyên. Các cấp độ chuyên nghiệp kéo dài thời lượng thời gian chạy và cải thiện độ ổn định, nhưng các tác vụ chạy lâu vẫn phải thường xuyên kiểm tra điểm đầu ra cho Drive.
9) Chia sẻ và cộng tác
Sử dụng nút Chia sẻ để thêm người xem, người nhận xét hoặc người chỉnh sửa. Nhận xét hoạt động giống như Tài liệu. Để cộng tác an toàn hơn, hãy tạo một bản sao”thực thi”cho mỗi đồng đội để tránh ghi đè trạng thái của nhau.
10) Sử dụng biểu mẫu và tham số
Biến các ô thành giao diện người dùng nhỏ với các trường biểu mẫu. Thêm một dòng như #@param {type:”slider”, min:1, max:128, step:1} phía trên một biến để hiển thị điều khiển. Điều này giúp những người trong nhóm không rành về kỹ thuật thay đổi thông tin đầu vào mà không cần chạm vào mã.
11) Kết nối với Git và tập dữ liệu
Bạn có thể sao chép kho lưu trữ bằng !git clone, lấy bản cập nhật bằng !git pull và đẩy lùi bằng mã thông báo truy cập cá nhân. Đối với các tập dữ liệu công khai, hãy tải xuống bằng yêu cầu !wget hoặc Python. Luôn ghi bản sao cuối cùng vào Drive chứ không chỉ VM.
12) Xuất kết quả một cách rõ ràng
Lưu các kết quả đầu ra quan trọng: biểu đồ dưới dạng.png, bảng vào CSV/Parquet, các mô hình đã đào tạo vào Drive. Sau đó, xuất sổ ghi chép của bạn dưới dạng .ipynb để chỉnh sửa trong tương lai và một bản chụp nhanh .html để chia sẻ.
13) Khắc phục sự cố thường gặp
“Phiên bị lỗi”sau khi cài đặt hoặc đào tạo nặng: Khởi động lại thời gian chạy, sắp xếp lại các bản cài đặt lên trên cùng và đầu ra điểm kiểm tra vào Drive. Không thể tải GPU: Tạm thời chuyển sang Không có, thử lại sau hoặc nâng cấp lên cấp trả phí để có mức độ ưu tiên cao hơn. Các tệp sẽ biến mất sau khi kết nối lại: Mọi thứ bên ngoài Drive đều là phù du. Luôn ghi vào /content/drive/…. Cài đặt chậm mỗi lần chạy: Bộ nhớ đệm trong Drive và cài đặt từ đó hoặc tạo một ô thiết lập để cài đặt mọi thứ cùng một lúc.
Mẹo
Mẹo chuyên nghiệp: Sử dụng %pip và %conda magic nếu có để giữ cho các lượt cài đặt được gắn với kernel. Mẹo chuyên nghiệp: Để có khả năng tái tạo, hãy ghim phiên bản: pandas==2.2.3. Bảo mật: Chỉ chạy những sổ ghi chép mà bạn tin tưởng; các ô mã có thể thực thi các lệnh shell. Tốc độ: Chuyển hoạt động tiền xử lý nặng sang GPU/TPU hoặc vectơ hóa bằng NumPy/Polars để giảm vòng lặp Python. Tổ chức: Đặt tên cho sổ tay như YYYY‑MM‑DD_topic.ipynb để Drive tự động sắp xếp chúng.
Câu hỏi thường gặp
Colab có thực sự miễn phí không? Có, Bậc miễn phí bao gồm CPU và quyền truy cập cơ hội vào GPU/TPU với phiên ngắn hơn. Các cấp độ trả phí ưu tiên phần cứng nhanh hơn và thời gian chạy dài hơn.
Các phiên kéo dài bao lâu? Nó thay đổi tùy theo cấp độ và hoạt động. Dự kiến sẽ tự động ngắt kết nối sau thời gian nhàn rỗi hoặc chạy rất dài. Điểm kiểm tra cho Drive thường xuyên.
Tôi có thể sử dụng R hoặc các ngôn ngữ khác không? Python là loại tốt nhất. Bạn có thể gọi các công cụ hệ thống thông qua ! và một số nhân cộng đồng hỗ trợ R, nhưng hỗ trợ chủ yếu tập trung vào Python.
Tôi có thể chạy các tác vụ trong nền không? Không có tác vụ nền liên tục; VM tạm dừng khi phiên kết thúc. Sử dụng Drive để lưu kết quả đầu ra và cân nhắc chuyển khối lượng công việc sản xuất sang một dịch vụ được quản lý khi bạn phát triển lâu hơn Colab.
Sự khác biệt giữa GPU và TPU là gì? GPU là công cụ tăng tốc đa năng rất phù hợp cho PyTorch và TensorFlow. TPU nhắm đến TensorFlow/JAX với thông lượng toán học ma trận lớn cho một số mô hình nhất định.
Tóm tắt
Tạo một sổ ghi chép mới và tìm hiểu các khái niệm cơ bản về ô. Chọn CPU/GPU/TPU trong Thời gian chạy. Cài đặt các gói cần thiết ở trên cùng. Mount Drive và tải tập dữ liệu của bạn. Sắp xếp kết quả đầu ra trong các thư mục Drive. Giám sát RAM/đĩa; khởi động lại khi cần thiết. Chia sẻ an toàn và sử dụng các biểu mẫu cho các thông số. Xuất sang .ipynb, .py và .html để sử dụng lại và chia sẻ.
Kết luận
Khởi động trong trình duyệt, chọn trình tăng tốc phù hợp, gắn Drive và ghim các phiên bản gói của bạn. Với cơ sở đó, bạn có thể đào tạo mô hình, phân tích dữ liệu và chia sẻ kết quả mà không cần thiết lập cục bộ. Mong đợi khởi động lại thường xuyên; quy trình làm việc của bạn vẫn an toàn nếu bạn liên tục ghi dữ liệu và thành phần lạ vào Drive. Khi bạn cần GPU nâng cao hoặc điện toán ổn định hơn, hãy nâng cấp lên cấp trả phí hoặc di chuyển khối lượng công việc hoàn thiện sang dịch vụ chuyên dụng.