FireCrawlのローカルでの構築方法

FireCrawlをセルフホストすることで、ウェブサイトのデータを効率的にクローリングし、LLM（大規模言語モデル）向けのMarkdownや構造化データに変換する機能を自前の環境で利用できます。以下に、FireCrawlをローカル環境にインストールする手順を説明します。

※この記事は10章まで読んだ読者を対象としています。

リポジトリのクローン: まず、公式のFireCrawlリポジトリをクローンします。
```
git clone <https://github.com/mendableai/firecrawl.git>
```
クローン後、ディレクトリに移動します。
```
cd firecrawl
```
環境変数ファイルの設定: .env.exampleファイルをコピーして、.envファイルを作成します。
```
cp apps/api/.env.example .env
```
次に、.envファイルを編集し、以下の項目を設定します。
- USE_DB_AUTHENTICATION: falseに設定します。
- TEST_API_KEY: 任意のAPIキーを設定します（例: fc-my-firecrawl）。
```
USE_DB_AUTHENTICATION=false
TEST_API_KEY=fc-my-firecrawl
```
※TEST_API_KEYは、fc-で始まる文字列である必要があります。
Dockerのセットアップ: FireCrawlはDocker Composeを使用して起動します。 (docker-compose.yamlのあるディレクトリで。今回の例ではfirecrawl)

docker compose up -d --build

初回のビルドには時間がかかる場合があります。

動作確認: 以下のコマンドで、FireCrawlのAPIが正常に動作しているか確認します。
```
curl -X GET <http://localhost:3002/test>
```
Hello, world!と表示されれば、セットアップは成功です。
Difyとの連携（オプション）: Difyと連携する場合、Difyの設定画面で以下を入力します。
- API Key: .envファイルで設定したTEST_API_KEYの値（例: fc-my-firecrawl）。
- Base URL: http://host.docker.internal:3002
これにより、DifyからFireCrawlを利用できるようになります。

これらの手順に従うことで、FireCrawlをセルフホスト環境で利用できるようになります。

ツールにおけるパラメータ設定

FireCrawlは、ウェブサイトのデータを効率的にクローリングし、LLM（大規模言語モデル）向けのMarkdownや構造化データに変換するツールです。その機能を最大限に活用するためには、各種パラメータの設定が重要です。以下に、主要なパラメータとその説明をまとめました。

APIキー（api_key）:
- 説明: FireCrawlのAPIを利用する際に必要な認証キーです。
- 設定方法: 公式ウェブサイトでアカウントを作成し、APIキーを取得してください。
URL（url）:
- 説明: クローリングの開始点となるウェブサイトのURLを指定します。
- 設定方法: クローリングしたいウェブサイトのURLを入力します。
クローリング深度（Maximum crawl depth）:
- 説明: 指定したURLからリンクをたどる深さを設定します。
- 設定方法: 整数値で指定し、デフォルトは2です。
最大ページ数（Maximum crawl depth）:
- 説明: クローリングする最大ページ数を設定します。
- 設定方法: 整数値で指定し、デフォルトは5です。
メインコンテンツのみ抽出（only_main_content）:
- 説明: ヘッダーやフッターを除き、主要なコンテンツのみを抽出するかどうかを設定します。
- 設定方法: trueまたはfalseで指定し、デフォルトはfalseです。

これらのパラメータを適切に設定することで、FireCrawlの機能を効果的に活用できます。詳細な設定や追加のオプションについては、公式ドキュメントを参照してください。