i-book.in の自動更新 (Python クローラー)

2019-11-23 · 1074 · 1 min

# 自動化スクリプト

最近 i-book.in を再設計し、自動化スクリプトを更新しましたが、特定のコードはすべてGitHubに投稿しません。

コアデータは関係ないので、ソースコードをクロールしているだけなのでGitHubに送って、ゆっくりデータを登ることに興味があるなら自分のサーバーに利用していいし、手に入れるのが面倒なら直接【i-book.in】(https://i-book.in)でいいです。

具体的な実装方法は非常に簡単です。

1. ブックの名前を取得します。

2.名前でアルゴリアに行き、本があるかどうかを確認します。お持ちの場合はスキップし、ない場合は解析してダウンロードします。

3. ダウンロードが完了したら、データをIPFSネットワークにアップロードし、ハッシュを解析します。

4.解析されたブックデータとipfsハッシュデータに基づいて、Algoliaが受け入れることができるJSON形式の文字に結合します。

5.jsonをAlgoliaにアップロードして、データベースに本があり、次に出くわしたときにダウンロードしないようにします。

# アンチクローラー

どんなサイトでもクローラーがあっても、ブログでCFシールドを設定した後、i-book.in にもCFを使用し、電子書籍のダウンロード操作にクローラー対策、つまりCFのファイアウォールルール内で設定し、電子書籍の接尾辞形式をキーワードとして設定し、これらのキーワードがキャプチャをトリガーします。次の図は、特定の設定を示しています。

# 英語本

ウンジンさんの勉強に加えて、最近はまだ元の英語の本を這い回っていて、理解できないかもしれませんが、見れば英語もある程度学ぶことができます、最も重要なことは、登山データがとても楽しいということです~

このウェブサイトはまだクロール中です、私のデバッグ上の特定のクロールコードなどは終了しました、またGitHubに置かれました、私は文句を言わなければなりません、外国人が本に名前を付ける方法はスパイシーで奇妙です、あらゆる種類の句読点、私は置き換えなければなりません、さもなければフォルダの作成は失敗し、その後のダウンロードはすべて失敗しました。

午後に合計3473冊の本をダウンロードしましたが、17冊の本のエラーがありましたが、それでも特別なシンボルの問題であるかのように、わざわざバグすることはありませんでした。