Google Colab 可讓您在瀏覽器中運行 Python 筆記本,零設置、入門級免費 GPU 以及輕鬆共享。如果您不熟悉筆記本、會話限製或引入自己的數據,本指南將為您提供一個乾淨、可重複的設置,適用於免費版和專業版套餐。
開始之前
可用於雲端硬盤存儲的 Google 帳戶。 基於 Chromium 的最新瀏覽器或 Safari。 穩定的網絡; Colab 在遠程虛擬機上運行,如果空閒,遠程虛擬機可以斷開連接。 可選:Drive 中的一個小數據集(CSV/Parquet/圖像)用於練習。 可選:如果您想要更快的 GPU、更長的會話和更高優先級的計算,請預算 Pro/Pro+。
1) 創建您的第一個筆記本
前往 Colab,點擊“新建筆記本”。您將看到一個代碼單元格和一個文本單元格(Markdown)。單擊代碼單元格並按 Shift+Enter 運行它。使用 Ctrl+M,然後按 B(Mac:Cmd+M,然後 B)添加註釋文本單元。
2) 選擇您的硬件(CPU、GPU 或 TPU)
打開運行時 → 更改運行時類型,然後選擇硬件加速器:無 (CPU)、GPU 或 TPU。免費用戶可以獲得可變的可用性;專業級別提供更高的優先級。切換後,環境將重新啟動。
專業提示: 如果您需要 CUDA,請在選擇後立即使用 !nvidia-smi 進行驗證 圖形處理器。對於 TPU,請使用支持它的 TensorFlow 或 JAX 構建。
3) 了解單元和執行
每個筆記本都是單元的線性列表。代碼單元自上而下運行並共享相同的 Python 內核狀態。使用 Shift+Enter 運行單元格並移動,或單擊播放圖標。隨時通過“運行時 → 重新啟動會話”來重新啟動運行時,以清除內存和變量。
4) 安裝您需要的軟件包
Colab 附帶了許多庫,但您可以為每個會話添加更多庫。使用前導感嘆號從單元格調用 shell 命令:
!pip install Polars scikit-learn plotly !apt-get-qq update && apt-get-qq install-y libspatialindex-dev
注意: 在臨時虛擬機內實時安裝,並在會話結束時消失。將您的requirements.txt 保存到雲端硬盤,然後在筆記本頂部重新安裝,以實現可重複的運行。
5) 可靠地保存您的工作
Colab 會自動將筆記本保存到您的雲端硬盤。使用“文件”→ 在雲端硬盤中保存副本以進行複制,或使用“文件”→ 將副本保存到 GitHub 以在存儲庫中備份。使用“文件”導出→“下載”以獲得.ipynb、.py 或.html。
為什麼使用它:您可以保留乾淨的版本化副本,並避免在會話回收時丟失代碼。
6) 引入您的數據
您可以上傳文件、裝載 Google 雲端硬盤或從網絡獲取。對於雲端硬盤,運行:
from google.colab importdrivedrive.mount(‘/content/drive’) # grants access to your Drive import pandas as pd df=pd.read_csv(‘/content/drive/MyDrive/data/sample.csv’) df.head()
專業提示: 在 MyDrive/
7) 保持項目文件井井有條
在雲端硬盤中創建最小文件夾佈局:數據/、筆記本/、模型/、輸出/。將模型和工件明確保存到雲端硬盤,以便它們在虛擬機關閉後仍然存在。
8) 觀察您的 RAM、磁盤和時間
單擊 RAM/磁盤計量表以查看資源。免費套餐會話有時間限制,如果空閒或資源有限,可能會斷開連接。專業版可延長運行時長度並提高穩定性,但長時間運行的作業仍應頻繁檢查雲端硬盤的輸出。
9) 共享和協作
使用“共享”按鈕添加查看者、評論者或編輯者。評論的工作方式與文檔類似。為了更安全的協作,請為每個隊友製作一份“執行”副本,以避免破壞彼此的狀態。
10) 使用表單和參數
將單元格變成帶有表單字段的迷你 UI。在變量上方添加類似 #@param {type:”slider”, min:1, max:128, step:1} 的行以公開控件。這有助於非技術團隊成員在不接觸代碼的情況下更改輸入。
11) 連接到 Git 和數據集
您可以使用 !git clone 克隆存儲庫,使用 !git pull 拉取更新,並使用個人訪問令牌推送。對於公共數據集,請使用 !wget 或 Python 請求下載。始終將最終副本寫入雲端硬盤,而不僅僅是虛擬機。
12) 乾淨地導出結果
保存重要的輸出:圖表為.png、表格為 CSV/Parquet、訓練模型到雲端硬盤。然後將筆記本導出為.ipynb 以便將來編輯,導出為.html 快照以便共享。
13) 排查常見問題
安裝或大量訓練後“會話崩潰”:重新啟動運行時,將安裝重新排序到頂部,並將檢查點輸出到雲端硬盤。 無法獲取 GPU:暫時切換為“無”,稍後重試,或升級到付費層級以獲得更高的優先級。 重新連接後文件會消失:雲端硬盤之外的任何內容都是短暫的。始終寫入/content/drive/…每次運行時安裝速度較慢:在雲端硬盤中緩存輪子並從那里安裝,或者構建一個安裝單元來一次性安裝所有內容。
提示
專業提示:在可用的情況下使用%pip 和%conda magic 來保持安裝與內核的綁定。 專業提示:為了重現性,引腳版本:pandas==2.2.3。 安全:僅運行您信任的筆記本;代碼單元可以執行 shell 命令。 速度:將繁重的預處理工作移至 GPU/TPU 或使用 NumPy/Polars 進行矢量化以減少 Python 循環。 組織:為筆記本命名,例如 YYYY‑MM‑DD_topic.ipynb,以便雲端硬盤自動對它們進行排序。
常見問題解答
Colab 真的免費嗎? 是的,免費套餐包括 CPU 和通過較短的會話機會訪問 GPU/TPU。付費等級優先考慮更快的硬件和更長的運行時間。
會話持續多長時間? 它因等級和活動而異。預計在空閒期或長時間運行後會自動斷開連接。經常檢查點驅動。
我可以使用 R 或其他語言嗎? Python 是一流的。您可以通過!調用系統工具,並且一些社區內核支持 R,但支持主要集中於 Python。
我可以在後台運行作業嗎? 沒有持久的後台作業;會話結束時虛擬機暫停。使用雲端硬盤保存輸出,並在 Colab 無法滿足需求時考慮將生產工作負載轉移到託管服務。
GPU 和 TPU 之間有什麼區別? GPU 是非常適合 PyTorch 和 TensorFlow 的通用加速器。 TPU 針對 TensorFlow/JAX,為某些模型提供大量矩陣數學吞吐量。
摘要
創建一個新筆記本並學習單元基礎知識。 在“運行時”下選擇“CPU/GPU/TPU”。 在頂部安裝所需的軟件包。 安裝驅動器並加載您的數據集。 在雲端硬盤文件夾中組織輸出。 監控內存/磁盤;需要時重新啟動。 安全共享並使用表單作為參數。 導出到.ipynb、.py 和.html 以供重複使用和共享。
結論
在瀏覽器中啟動,選擇正確的加速器,安裝驅動器,並固定您的軟件包版本。有了這個基礎,您就可以訓練模型、分析數據並共享結果,而無需進行本地設置。預計偶爾會重新啟動;如果您始終將數據和工件寫入雲端硬盤,您的工作流程就會保持安全。當您需要更穩定的計算或高級 GPU 時,請升級到付費層或將成熟的工作負載遷移到專用服務。