機器學習必備資料分析庫pandas,如何使用pandas完成檔案讀取?

機器學習必備資料分析庫pandas,如何使用pandas完成檔案讀取?使用者27132457131788762019-06-10 22:20:40

file1。csv 檔案內容:

name, physics, python, math, english

Google, 100, 100, 25, 12

Facebook, 45, 54, 44, 88

Twitter, 54, 76, 13, 91

Yahoo, 54, 452, 26, 100

Python程式:

import pandas as pd

marks = pd。read_csv(“F:/file1。csv”)

print(marks)

結果:

name physics python math english

0 Google 100 100 25 12

1 Facebook 45 54 44 88

2 Twitter 54 76 13 91

3 Yahoo 54 452 26 100

Process finished with exit code 0

機器學習必備資料分析庫pandas,如何使用pandas完成檔案讀取?小小猿愛嘻嘻2019-06-19 21:47:52

pandas是python

一個

非常著名的資料處理庫,內建了大量函式和型別,可以快速讀取日常各種檔案,

包括txt,csv,excel,json,mysql等,為機器學習模型提供樣本輸入(包括資料預處理等),

下面我簡單介紹一下這個庫的使用,以讀取這5種類型檔案為例:

txt

這裡直接使用read_csv函式讀取就行(早期版本中可以使用read_table函式),測試程式碼如下,非常簡單,第一個引數為讀取的txt檔名稱,第二個引數為列標題(None代表無列標題,如果需要列標題的話,去掉header引數就行),第三個引數為分隔符,可以是任意符號(空格、逗號等都行):

機器學習必備資料分析庫pandas,如何使用pandas完成檔案讀取?

csv

這裡也直接使用read_csv函式就行,測試程式碼如下,和上面讀取txt檔案差不多,分隔符就不需要單獨指出了,預設是逗號:

機器學習必備資料分析庫pandas,如何使用pandas完成檔案讀取?

excel

這裡直接使用read_excel函式讀取就行,引數設定和read_csv差不多,第一個引數為檔名稱,第二引數header為None,則沒有列標題,若不寫,則預設有列標題,如下,則含有列標題:

機器學習必備資料分析庫pandas,如何使用pandas完成檔案讀取?

json

這裡直接使用read_json函式就行,第一個引數也是檔名稱,第二個引數為編碼,如果出現中文亂碼的情況下,這裡設定一下就行:

機器學習必備資料分析庫pandas,如何使用pandas完成檔案讀取?

mysql

這裡需要藉助sqlalchemy模組,才能完成mysql資料庫(Oracle,SQL Server等也都可以)的讀取,安裝的話,直接在cmd視窗輸入命令“pip install sqlalchemy”就行,測試程式碼如下,非常簡單,先建立一個engine連線,然後直接呼叫read_sql_query函式執行sql查詢就行:

機器學習必備資料分析庫pandas,如何使用pandas完成檔案讀取?

至此,我們就完成了利用pandas模組來讀取txt,csv,excel,json,mysql等5種類型的檔案。總的來說,pandas這個庫的功能非常強大,對於日常資料處理來說,是一個非常不錯的選擇,在機器學習中,經常會用於資料預處理,非常實用,只要你有一定的python基礎,熟悉一下相關文件和說明,很快就能掌握的,網上也有相關資料和教程,介紹的非常詳細,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言進行補充。