전자책 검색 엔진 i-book.in
2019-08-31 · 1408 · 1 min이전 기사를 읽었다면 한때 10,000권의 작은 책으로 전자책 검색 엔진을 구축했지만 출판된 적이 없다는 것을 알아야 합니다. 주된 이유는 저작권 문제입니다. 내가 이 문서를 가지고 있다는 것을 아무도 모른다고 외치지 않는 한 이 문서를 개인적으로 개인적으로 소유하는 것은 불법이 아니지만 공개적으로 배포하고 공개적으로 공유하는 것은 불법입니다. 그리고 이 자료를 인터넷에 묻고 싶지 않았고 계속 빛나기를 원했기 때문에 검색 엔진을 공개하기로 결정했습니다. 하지만 그 전에 나는 지금 이 결정으로 인해 미래의 자신이 곤경에 빠지는 것을 막기 위해 작은 일을 했습니다.
책은 인간 진보의 사다리입니다. - 고리키
그렇다면 전자책은 엘리베이터입니다. - 짭짤한 레오
2019-9-23 업데이트: 알고리즘 UI 데모 추가, 내 메인 사이트가 작동하지 않을 수 있는 것 같습니다., 메인 사이트가 중단된 경우, 이 링크를 사용하여 액세스할 수 있습니다: i-Book.in 알고리아 UI 데모
2019-9-21 업데이트: CloudFlare의 reCAPTCHA 챌린지가 추가되었으며, 다운로드하기 전에 모든 다운로드 링크를 확인해야 합니다.
2019-9-10 업데이트: Google은 이 검색 엔진을 캐시하므로 기본 사이트가 중단된 경우 캐시를 통해서도 액세스할 수 있으며 전체 사이트에 대해 https 'Google 인증서'를 사용할 수 있으며 이는 아마도 순수한 동적 페이지의 이점일 것입니다. 링크: Google 캐시 i-Book.in, '뒤로'를 두 번 클릭하여 사용합니다.
# 저작권법
영국 의회가 1709 년 세계 최초의 저작권법 "Queen Anna Act"를 통과시킨 이래 300 년 동안 인쇄 시대의 저작권 보호권의 핵심은 복제 권이지만 인터넷 시대에는 복제의 개념이 파괴적인 변화를 겪었고 네트워크 보급은 복제의 완성이며 복제권과 보급권이 결합되었습니다. 종이책과 달리 대부분의 전자책은 재판매, 양도 또는 대여가 불가능합니다.
👇 Kindle Store 사용 조건의 스크린샷.
! [Kindle Store 사용 조건] (https://pic.saltyleo.com/i/171082894223.webp)
개인적으로 저작권법을 존중하고 집에서 종이책을 많이 샀는데 둘 곳이 없다. 전자책의 장점은 방대한 책을 보관하기 위해 공간을 차지할 필요가 없다는 점이지만, 현재의 전자책 모드는 대출과 동일하며, 사본을 사기 위해 돈을 쓰고, 이동할 수 없으며, 고유한 기기나 앱에서만 볼 수 있습니다. 아무개와 공유하고 싶다면 종이책 시대에 다른 사람에게 빌려주는 것도 좋겠는데, 전자책은 어떨까요? 다른 사람과 공유하기 전에 계정을 다른 사람에게 제공해야 하며 이에 동의하지 않습니다.
따라서 불법 복제 된 전자 책을 낳거나 불법 수단을 사용하거나 원본 종이 책을 직접 OCR하는 것은 당연한 일이며, 불법 복제 된 전자 책의 주류가 점차 시장에 넘쳐 흐르면서 EPUB, MOBI, AZW3 형식으로 공개 형식 전자 책을 제작하는 것은 자연스러운 일이며, 공유 및 확산이 쉽기 때문에 출판사에 막대한 경제적 손실을 초래했기 때문에 이러한 불법 복제 전자 책 웹 사이트의 출판사는 고압적인 정책을 시행하고 있습니다. 그래서 우리가 알고 있는 전자책 웹사이트는 조금씩 사라지고 있습니다. 예: booksetme, 작은 서점 등
그 이유는 웹 사이트의 웹 마스터가 네트워크 보안 인식이 충분히 강하지 않고 익명 성 조치를 잘 수행하지 못했기 때문에 법적 인식이 약하기 때문에 의심 할 여지없이 자신의 무덤을 파고 > '웹 사이트 구축'> '데이터 공유'라는 오래된 길을 따르고 싶지 않습니다. 첫째, 데이터를 제공하기 위해 웹 사이트를 구축하는 행위는 권리자의 * 복제 권리 *를 침해하고, 둘째, 중국 서버에서 확인한 도메인 이름을 기록해야하며, 제출 후 도메인 이름은 신분증과 같으며, 시스템에 입력하여 개인 정보와 흉상 사진까지 찾을 수 있습니다.
그래서 내가 선택한 솔루션은 입력을 기반으로 적절한 데이터를 검색하고 검색 엔진 색인 데이터를 포함하여 내 서버에 저장되지 않은 해당 오프 사이트 링크를 제공하는 검색 엔진이었습니다.
중국의 [정보 네트워크 전송권 보호에 관한 규정] (http://www.gov.cn/zwgk/2006-05/29/content_294000.htm)"(발췌) 제 14 조에 따르면 :
권리 보유자는 자사의 서비스와 관련된 저작물, 실연, 음원 또는 비디오 녹화물이 자사의 정보망 유포권을 침해하거나 권리 관리를 위해 전자적 정보를 삭제 또는 변경한다고 판단하는 경우, 네트워크 서비스 제공자에게 저작물, 실연, 음원 또는 동영상 녹화물을 삭제하거나 저작물, 실연, 음향 또는 동영상 녹화물과의 연결을 끊을 것을 요청하는 서면 통지서를 네트워크 서비스 제공자에게 제출할 수 있습니다. 통지서에는 다음 사항이 포함되어야 합니다. (1) 권리자의 성명(직함), 연락처 및 주소 (2) 삭제 또는 연결을 끊을 것을 요청하는 침해 저작물, 공연, 녹음 또는 비디오 녹화물의 이름 및 네트워크 주소 (3) 침해의 예비 증거. 통지의 진위 여부에 대한 책임은 권리자에게 있습니다.
내가 제공하는 링크의 내용이 권리자의 '정보망 보급권'을 침해한다고 가정하고 DMCA 통지를 saltyleo@tstrs.me 에 보내 표준 형식에 따라 해당 내용을 기입하고 최악의 경우 14에 규정된 세 가지 요소를 포함해야 합니다.
제 15 (발췌) :
권리자의 통지를 받은 후 네트워크 서비스 제공자는 침해가 의심되는 저작물, 실연, 녹음 또는 비디오 녹음물을 즉시 삭제하거나 침해가 의심되는 저작물, 실연, 녹음 또는 비디오 녹음물과의 연결을 끊고 동시에 저작물, 실연, 녹음 또는 비디오 녹음을 제공한 서비스 수령인에게 통지를 전달해야 합니다. 서비스 대상의 네트워크 주소를 알 수 없어 양도할 수 없는 경우, 통지 내용을 동시에 정보망에 공지하여야 한다.
제 23 (발췌) :
... 네트워크 서비스 제공자가 서비스 수신자에게 검색 또는 링크 서비스를 제공하고 권리자로부터 통지를 받은 후 이 규정의 규정에 따라 침해 저작물, 공연, 녹음물 또는 비디오 녹화물과의 링크를 끊는 경우 보상 책임을 지지 않습니다. ...
따라서 위와 같은 바에 따라 통지-게시 중단 절차를 합법적으로 진행하고 있습니다. 어떠한 책임도 지지 않습니다.
# IPFS 행성 간 파일 시스템
행성 간 파일 시스템은 영구적이고 분산된 스토리지 및 공유 파일을 생성하도록 설계된 네트워크 전송 프로토콜입니다. 콘텐츠 주소 지정이 가능한 피어 투 피어 하이퍼 미디어 배포 프로토콜입니다. IPFS 네트워크의 노드는 분산 파일 시스템을 형성합니다.
소송 대상으로 등재되지 않도록 하기 위해 파일을 내 서버에 올릴 생각이 없어 IPFS 성간 파일 시스템 **을 스토리지 서비스로 선택했는데 신뢰성은 높지 않지만 견고성은 매우 강하며 세계에 노드가 있는 한 파일을 찾을 수 있습니다.
Douban의 로고와 같은 일반 HTTP 링크:
https://img3.doubanio.com/f/frodo/144e6fb7d96701944e7dbb1a9bad51bdb1debe29/pics/app/logo.png
이런 식으로 👆 HTTP는 '경로 지향'프로토콜이기 때문에 문자 변경 자체는 변경되는 파일을 가리 킵니다.
IPFS는 '파일 지향' 프로토콜로, 경로를 알 필요가 없고 파일의 해시만 알면 되며, IPFS 네트워크에서 이 해시를 자동으로 검색하여 찾아 렌더링합니다.
IPFS 링크는 다음과 같습니다.
https://gateway.i-book.in/ipfs/QmNY7V1MFgvo1ihdDdFYT4UUGm4dz8HVwqXXL1DdxYePLB
다음과 같이 열립니다.
그 중 'gateway.i-book.in' 부분은 게이트웨이입니다., 이 프로토콜이 아직 개발되지 않았기 때문에, 게이트웨이를 통해 이 특별한 피어 투 피어 네트워크에 액세스해야 합니다., 링크는 향후 브라우저 및 서비스 제공업체 지원 후 다음과 같이 단순화됩니다.
ipfs://QmNY7V1MFgvo1ihdDdFYT4UUGm4dz8HVwqXXL1DdxYePLB
또는
fs://QmNY7V1MFgvo1ihdDdFYT4UUGm4dz8HVwqXXL1DdxYePLB
그리고 가장 놀라운 점은 이 파일을 얻기 위해 다른 게이트웨이를 변경할 수 있다는 것입니다. 👇
IPFS 공식 게이트웨이를 사용할 수 있습니다 : (우회 필요)
https://ipfs.io/ipfs/QmNY7V1MFgvo1ihdDdFYT4UUGm4dz8HVwqXXL1DdxYePLB
또는 Cloudflare의 게이트웨이: (우회 필요)
https://cloudflare-ipfs.com/ipfs/QmNY7V1MFgvo1ihdDdFYT4UUGm4dz8HVwqXXL1DdxYePLB
결국 액세스되는 파일은 모두 동일합니다. '링크를 자세히 살펴보십시오':
이것이 이 프로토콜에 대해 가장 나를 끌어들이는 것입니다, * 노드 는 존재의 가장 낮은 계층으로, * 클러스터 * 노드를 기반으로, * 게이트웨이 *는 현재 프로토콜이 개발되지 않았고 일부 세부 사항이 손상된 결과입니다, *해시는 이 분산 네트워크의 영혼입니다, 전체 네트워크에 이 해시로 표시되는 파일을 저장하는 노드가 있는 한, 전체 네트워크의 노드는 이 파일에 액세스할 수 있습니다, 차이점은 액세스 속도뿐입니다.
물론 일부 파일은 소스 노드를 벗어나지 않고 네트워크에서 사라지지만 핀 기능을 사용하여 원격 노드의 파일을 로컬로 고정할 수 있으며 소스 노드가 다운되더라도 파일은 여전히 네트워크에 전파될 수 있습니다.
여기서는 이 계약에 대해 너무 자세히 설명하지 않겠고, 능력이 있는 사람은 IPFS 공식 웹사이트로 직접 이동하여 백서를 읽을 수 있습니다.
메모!!! 모든 IPFS 비공식 커뮤니티는 사기꾼이고, 모든 IPFS 채굴은 사기꾼입니다(파일코인 제외)', 이것은 완전히 가짜 수요이기 때문에 중요하지 않은 파일을 저장하기 위해 노드에 비용을 지불하시겠습니까? bt 프로토콜이 대중적이었을 때 bt 시드의 가용성을 유지하기 위해 생산 된 * PT 스테이션 *처럼 노드 비용을 직접 지불하더라도 데이터를 다른 사람에게 넘겨주기 위해 비용을 지불하지 않을 것입니다. IPFS는 현재 매우 양호한 상태이며, 공용 IPFS 네트워크를 사용하여 데이터를 확산하거나 사설 IPFS 네트워크를 구축하여 원하는 만큼 할 수 있습니다.
'i-book.in'자체는 데이터를 저장하지 않고 전달에만 응답하기 때문에 현재로서는 비교적 완벽한 * 암캐가되어 토리이 * 계획을 세워야한다고 생각합니다.
나는이 계획을 위해 몇 가지 작은 일을했다.
'i-book.in' 페이지는 Algolia에서 제공하는 검색 서비스를 사용하고, 'gateway.i-book.in' 게이트웨이는 IPFS 행성 간 파일 시스템을 사용하고, 프런트 엔드는 CloudFlare의 CDN 서비스를 사용하고, 모든 파일 저장소는 IPFS 행성 간 파일 시스템 이미지 포함을 사용합니다.
최종 효과는 완전히 손대지 않고 데이터와 관련이 없으며 검색 엔진의 모든 데이터는 다른 웹 사이트에서 제공되며 크롤러 스크래핑을 사용하여 정보를 통합하여 검색을 제공합니다.
# 포스트 스크립트
우선, 나는 [LoreFree] (https://ebook.lorefree.com/)에게 감사하고 싶습니다, 그것은 저에게 영감을주었습니다, 그들의 백엔드 파일 저장 시스템은 IPFS 기술을 기반으로하지만, EOS와 결합하는 것은 잘못된 결정입니다, 돈과 관련된 한 무료 공유는 명확하지 않습니다, 최근에 DAU가 두 자릿수로 떨어지는 것을 보면서, 얼마나 오래 지속될 수 있을지 모르겠습니다. 기술 스택은 매우 완벽하고 등반 방지는 매우 엄격하며 크롤링을 되돌리기 위해 인증 코드 * 영구 오류 * 모드를 열 수 있습니다 '(인증 코드를 입력하는 한 잘못되었습니다. 이것은 제 개인적인 추측이며 내부 시스템 오류 일 수도 있습니다)', 그러나 그것은 중요하지 않습니다, 다음은 LoreFree의 데이터베이스는 총 66511 권의 책 '(2019-08-30 데이터)', 총 약 '10M'크기의 책의 평균 3 가지 버전에 따르면 약 '700G'가있는 것으로 추정됩니다. 데이터, 음, 어떤 향기.
내가 여기에 "교활함"과 "논쟁"을 너무 많이 쓰지만, SaltyLeo ID는 완전히 익명이 아니기 때문에 누군가가 나를 참여 시키거나 DMCA를 작성할 준비를하거나 출판사에 연락하여 추가 돈을 벌 준비를하고 Tencent Cloud와 조금이라도 관련이 있기 때문에 도메인 이름의 등록 정보를 확인하는 tstrs.me 저나 사회 복지사를 찾을 수 있습니까? 그래서 저는 법을 준수하고 애국심이 강한 3 선량한 청년이며, 통지를 받자 마자 즉시 삭제하고 법에 따라 행동 할 것입니다.
nginx 포워딩을 올바르게 설정하는 것은 정말 피곤하고 iptables를 디버깅하는 것도 성가신 일입니다. 정리가 끝나면 GitHub~~Open Source~~'(친구들이 이렇게 하지 말라고 해서 오픈소스가 아니에요, 23333)' 인덱스 데이터베이스로 이동합니다.
IPFS 노드를 설정하는 방법, 클러스터를 구축하는 방법 등에 관해서는 시간이 있을 때 업데이트하겠습니다. 예, 애들레이드 대학의 도서관에도 전자 책 공유 프로젝트가 있지만 모두 공개적으로 저작권이 있으며 모든 오래된 책은 여기에 있습니다 : [https://ebooks.adelaide.edu.au/] (https://ebooks.adelaide.edu.au/), 다음 크롤링 대상은 그것입니다.
검색 엔진은 정식 버전에 가깝고 인덱스 데이터와 Algolia 스케일링을 거의 크롤링하고 있습니다.
나는 이것으로 이익을 얻지 않을 것이고, 기술 구현에 대해 궁금해하고, 나쁜 징조가 있으면 오프라인으로 전환 할 것입니다.
가끔은 옛날 뉴스를 보는 느낌이 꽤 들기도 하고, 현재의 글쓰기 스타일과 비교하면 과장된 은유나 시선을 사로잡는 기법을 사용하기보다는 사건 자체에 초점을 맞춘 이런 글쓰기가 더 간결하고 강력하다. [인류 진보의 '엘리베이터'로서의 전자책? 인쇄가 더 빨리 읽을 수 있습니다] (http://www.chinanews.com/cul/2010/07-22/2419308.shtml)
-EOF-
저작권 공지 :
이 글은 SaltyLeo가 쓴 것입니다, 내용에 오류가 있다면 의견을 남겨주세요. 이 글은 CC BY-NC-SA 라이선스를 준수하여 재게시 또는 인용할 때는 필자를 언급하고, 상업적 용도로 사용하지 않아야 하며, 동일한 방식으로 공유되어야 합니다!댓글 :
더 읽기 :
구글 크롬은 의심할 여지없이 세계 최고의 브라우저입니다.얼마전 개인 정보 보호 문제가 많은 그림자를 드리웠지만 저 같은 방귀에게는 수집하고 수집해야 합니다.어쨌든 누구에게나 주어지는 것은 아닙니다. , 그리고 결국 나 자신이 사용합니다 가장 중요한 것은 행복입니다.
예전부터 맥OS를 너무 좋아하고 싶었는데 맥북을 살 돈이 없어서 가상머신으로만 놀고 있거든요.
시스템을 업데이트하고 나서 종료가 항상 느린 이유를 모르겠습니다. 종료하기 전에 Ubuntu 로고가 표시되는 데 시간이 오래 걸립니다. 인터넷에서 해결 방법을 찾았습니다.
Gitbook은 순전히 정적 페이지이며 배포가 매우 쉬운 저에게 특히 적합합니다.
자동으로 실행되도록 스크립트를 설정하고 30분마다 데이터를 가져옵니다.