RMySQLのドキュメントは非常に優れていますが、SQLの基本を理解していることを前提としています。これらは次のとおりです。
- データベースの作成
- テーブルの作成
- データをテーブルに取り込む
- テーブルからデータを取得する
ステップ1は簡単です。MySQLコンソールで、単に「データベースDBNAMEを作成」します。または、コマンドラインから mysqladminを使用します 、または多くの場合、MySQL管理GUIがあります。
テーブルフィールドとそのタイプを指定する必要があるため、ステップ2は少し難しくなります。これは、CSV(または他の区切られた)ファイルの内容によって異なります。簡単な例は次のようになります:
use DBNAME;
create table mydata(
id INT(11) NOT NULL AUTO_INCREMENT PRIMARY KEY,
height FLOAT(3,2)
);
これは、2つのフィールドを持つテーブルを作成することを意味します: id 、これは主キーになり(したがって、一意である必要があります)、新しいレコードが追加されると自動インクリメントされます。および高さ 、ここでは浮動小数点数(数値タイプ)として指定され、合計3桁、小数点以下2桁です(例 100.27)。 データ型 を理解することが重要です。 。
ステップ3-データをテーブルにインポートするにはさまざまな方法があります。最も簡単な方法の1つは、 mysqlimportを使用することです。 効用。上記の例では、データがテーブル(mydata)と同じ名前のファイルにあり、最初の列がタブ文字で、2番目の列が高さ変数(ヘッダー行なし)であると仮定すると、これは機能します:
>mysqlimport -u DBUSERNAME -pDBPASSWORD DBNAME mydata
ステップ4-MySQLクエリを実行する方法を知っている必要があります。繰り返しますが、簡単な例:
select * from mydata where height > 50;
「高さが50を超えるテーブルmydataからすべての行(id +高さ)をフェッチする」ことを意味します。
これらの基本をマスターしたら、2つ以上のテーブルを作成したり、それぞれのデータを結合するクエリを実行したりするなど、より複雑な例に進むことができます。
次に、RMySQLのマニュアルを参照できます。 RMySQLでは、データベース接続を設定してから、SQLクエリ構文を使用してテーブルから行をデータフレームとして返します。したがって、SQL部分を取得することが非常に重要です。RMySQL部分は簡単です。
「公式」
個人的には、80Mbを大きなデータセットとはまったく考えていません。これがRAMの問題を引き起こしていることに驚いています。そして、ネイティブR関数がそれを非常に簡単に処理できると確信しています。ただし、この問題でSQLなどの新しいスキルが必要ない場合でも、SQLなどの新しいスキルを習得することをお勧めします。