Saltyleo's Blog

独自の検索エンジンシステムを構築する - SaaS Algolia に基づく

2019年07月06日 · 1078 · 9 min

# なぜ独自の検索エンジンを構築する必要があるのですか?

最初に裏話について話しましょう、最近の電子書籍、映画の著作権訴追のケースがますます増えており、私がよく登るいくつかのステーションが見つかりました。現在の状況は、異なるWebサイトに異なるデータが存在し、それを見つけるために異なるWebサイトにアクセスする必要があるたびに、面倒なので、ワンステップでそれを行い、直接検索エンジンを実行してすべてのデータにインデックスを作成し、検索エンジンに直接アクセスして、何かを見つけたいときに見つけ、リンクはダウンロードリンクであり、直接ダウンロードして、罰金 '(および)強制 '(いいえ)'で多くの時間を節約できるようにします。デモビデオ:

<動画の幅="100%" 高さ="400" src="https://img.learn2.cn/2019-07-06%2020.35.18.mp4" 自動再生="自動再生" コントロール="コントロール">'

2019-7-16 アップデート:

このプロジェクトの計画を始めて以来、長い時間がかかると思っていましたが、それほど時間がかかるとは思っていませんでした、そして今はベータ版であり、クローラーがデータをクロールするのが悪すぎて、フロントエンドに表示されるテキストのほとんどと画像が結合されていないので、どうすればよいですか? 手動スクリーニング。

バックエンドストレージソリューションは、私がずっと前に構築したOneIndexを使用し、高負荷の下で未知の理由でOneDriveは、多くの場合、サービスを利用できないスローし、無力な私はOneDriveの直接チェーンを取得するためにPythonスクリプトを使用することに頼ることができますが、直接リンクを取得するスクリプトも手動スクリーニングを必要とするため、遅すぎます。今では最も初期のh5aiで構築されたファイルサーバーであり、クローラーを防ぐために、本のルートをマスクしました。

現在、データベースは約7,000冊の本であり、興味があれば、電子メールを送信して、テストするためのアドレスを尋ねることができます。

*この記事の検索エンジンへのリンクは、公開されている限り、著作権団体から必然的に死刑に訴えられるため、私のデータサンプルはすでに非常に大きいため、提供しません。 *

# ソリューション

今日の市場には、およそ2つの検索エンジンソリューションがあります。

ソル

Solr(「ソーラー」と発音)は、Apache Luceneプロジェクトのオープンソースエンタープライズ検索プラットフォームです。その主な機能には、全文検索、ヒットマーク、ファセット検索、動的クラスタリング、データベース統合、リッチテキスト(Word、PDFなど)処理が含まれます。 Solr は拡張性が高く、分散検索と索引複製を提供します。 Solr は最も人気のあるエンタープライズレベルの検索エンジンであり、Solr 4 では NoSQL サポートも追加されています。

エラスティックサーチ

Elasticsearchは、Luceneライブラリに基づく検索エンジンです。これは、HTTP WebインターフェイスとスキーマレスJSONドキュメントを備えた、分散型のマルチテナント対応フルテキスト検索エンジンを提供します。 ElasticsearchはJavaで開発され、Apacheライセンスの下でオープンソースソフトウェアとしてリリースされました。

どちらも非常に強力ですが、ゼロから構築する必要があり、それらについては知らないので、両方をあきらめなければならないので、私はそれが好きではありません。

# どうやってやったか

フロントエンドは、Algoliaのインスタント検索.jsスクリプトを使用するシンプルなhtmlページです。 '(強調を追加)'

バックエンドはAlgoliaが提供するサービスを使用しており、同社の主力製品はSaaS(サービスとしてのソフトウェア)モデルを通じて検索サービスを提供することであり、検索時間が1ms未満、つまりインスタント検索であることを約束し、基本的に入力すると検索を開始します。

私は特定のコードを投稿しません、GitHubには多くの関連するデモがあります、そうでなければ誰かが私が水中にいると言いたいです、そのような検索エンジンを構築するには少しの技術しか必要としません、 'python、JSON、CSS、JS、HTML'、パイソンはクローラー部分、JSONは情報ストレージ、CSSはページの美化、JSは検索スクリプト、HTMLはページのフレームワークです。

Algoliaの無料版は1wのデータしか保存できず、月に5wを超える読み書きができず、データベースはすぐに1wを超えるので、どうすればよいですか? それは非常に簡単です, 複数のアカウントを登録します, 各アカウントが異なる入り口を構築する, 無制限の量のデータを拡張して読み書きできるようにします. '(ただのトラブル)'

# 追記

今は基本的に月に4、5冊の本が読めるようになったので、読書も技術やリラックスだと思っていて、著者が構築した世界に没頭するたびに、想像力や思考が活発になります。しかし、今ではインターネット上の本はますます少なくなり、さまざまなインターネットの巨人が独自の包囲を構築しており、このアプリを使用して1冊の本を読み、別のアプリを使用して別の本を読みたいのですが、これは単に嫌です。

最近読んだ本を分かち合う。これはユニークなiOSアプリ「本」機能が付属しています、私は基本的に「本」で本を読むので、私が読んだ本には記録があります、最も強力なことは私がiPadの一部を読み、電話を手に取って「本」を開くことです以前の進歩にジャンプするのに1、2秒しかかからないため、Appleエコロジーなしではできません。 (国内生産能力がこの点を達成するのはいつですか、私はすぐに国内生産ワウをサポートします)」

最後に、私はもっと見たので、著作権を書き直すつもりです、そしてそれは少し不快です:人がインターネット上で本を共有し、出版社は20wを主張するために裁判所を訴えました、私は個人的に著作権を尊重しますが、この高すぎる価格はまだ不合理に感じます。ねえ、法律には無限の抜け穴があります、いつ私は金持ちになるために1つか2つを捕まえることができますか?