FireCrawlをセルフホストすることで、ウェブサイトのデータを効率的にクローリングし、LLM(大規模言語モデル)向けのMarkdownや構造化データに変換する機能を自前の環境で利用できます。以下に、FireCrawlをローカル環境にインストールする手順を説明します。

※この記事は10章まで読んだ読者を対象としています。

  1. リポジトリのクローン: まず、公式のFireCrawlリポジトリをクローンします。

    git clone <https://github.com/mendableai/firecrawl.git>
    
    

    クローン後、ディレクトリに移動します。

    cd firecrawl
    
    
  2. 環境変数ファイルの設定: .env.exampleファイルをコピーして、.envファイルを作成します。

    cp apps/api/.env.example .env
    
    

    次に、.envファイルを編集し、以下の項目を設定します。

    USE_DB_AUTHENTICATION=false
    TEST_API_KEY=fc-my-firecrawl
    
    

    TEST_API_KEYは、fc-で始まる文字列である必要があります。

  3. Dockerのセットアップ: FireCrawlはDocker Composeを使用して起動します。 (docker-compose.yamlのあるディレクトリで。今回の例ではfirecrawl)

docker compose up -d --build

初回のビルドには時間がかかる場合があります。

  1. 動作確認: 以下のコマンドで、FireCrawlのAPIが正常に動作しているか確認します。

    curl -X GET <http://localhost:3002/test>
    
    

    Hello, world!と表示されれば、セットアップは成功です。

  2. Difyとの連携(オプション): Difyと連携する場合、Difyの設定画面で以下を入力します。

    これにより、DifyからFireCrawlを利用できるようになります。

これらの手順に従うことで、FireCrawlをセルフホスト環境で利用できるようになります。

ツールにおけるパラメータ設定

FireCrawlは、ウェブサイトのデータを効率的にクローリングし、LLM(大規模言語モデル)向けのMarkdownや構造化データに変換するツールです。 その機能を最大限に活用するためには、各種パラメータの設定が重要です。 以下に、主要なパラメータとその説明をまとめました。

  1. APIキー(api_key:
  2. URL(url:
  3. クローリング深度(Maximum crawl depth:
  4. 最大ページ数(Maximum crawl depth:
  5. メインコンテンツのみ抽出(only_main_content:

これらのパラメータを適切に設定することで、FireCrawlの機能を効果的に活用できます。 詳細な設定や追加のオプションについては、公式ドキュメントを参照してください。