banner
ニュース センター
営業から生産まで幅広い知識

CORE: オープンアクセス論文のグローバル集約サービス

Jun 11, 2023

Scientific Data volume 10、記事番号: 366 (2023) この記事を引用

171 アクセス

30 オルトメトリック

メトリクスの詳細

この文書では、広く使用されている学術サービスである CORE について紹介します。CORE は、リポジトリとジャーナルのグローバル ネットワークから取得された、オープンアクセスの研究出版物の世界最大のコレクションへのアクセスを提供します。 CORE は、科学文献のテキストおよびデータ マイニングを可能にし、科学的発見をサポートすることを目的として作成されましたが、現在では、高等教育、産業界、非営利組織などの幅広いユースケースで使用されています。一般市民。 CORE は、提供されるサービスを通じて、市場をリードするサードパーティ組織における盗作検出などの革新的なユースケースを強化します。 CORE は、科学知識をより簡単かつ自由に発見できるようにすることで、普遍的なオープンアクセスに向けた世界的な動きにおいて極めて重要な役割を果たしてきました。 この論文では、CORE の継続的に成長するデータセットとその作成の背後にある動機について説明し、世界中の何千ものデータプロバイダーから研究論文を大規模に体系的に収集することに伴う課題を示し、これらの課題を克服するために開発された新しいソリューションを紹介します。 次に、このホワイトペーパーでは、集約されたデータに基づいて構築されたサービスとツールについて詳しく説明し、最後に CORE データセットとサービスを活用したいくつかのユースケースを検討します。

科学文献には、病気の治療方法、工学上の難しい問題の解決方法、今日私たちが直面している世界の課題の多くへの答えなど、私たちが種として集めた最も重要な情報の一部が含まれています。 科学文献全体は驚異的な速度で増加しており、年間 500 万件以上の論文が増加しています (最大の Digital Object Identifier (DOI) 登録機関である Crossref によると、2022 年にはほぼ 720 万件の論文が出版されました)。 さらに、毎年発表される研究の量は毎年約 10% 増加すると推定されています1。 同時に、研究文献の量は増え続けており、2015 年には年間 100 万件をはるかに超えると推定されています 2。オープンアクセス (OA) として出版されているため、限られた範囲で、またはまったく制限なしで閲覧および処理できます。著作権制限。 この知識を読み取ることは今や人間の能力を超えており、テキスト マイニングは、この知識にアクセスして分析する方法を改善するだけでなく 3、新たな科学的洞察につながる可能性もあります 4。

しかし、科学文献を体系的に収集して自動化された方法で大規模に処理できるようにすることは、重大な問題です。 科学文献は何千もの出版社、リポジトリ、ジャーナル、データベースに分散していますが、共通のデータ交換プロトコルやその他の相互運用性のサポートが不足していることがよくあります。 プロトコルが整備されている場合でも、このデータを収集して処理するためのインフラストラクチャが不足していること、著作権が制限されていること、世界のほとんどの地域で OA がまだデフォルトの出版ルートになっていないという事実により、科学的知識の機械処理はさらに複雑になっています。

これらの問題を軽減し、科学文献のテキストおよびデータ マイニングをサポートするために、CORE (https://core.ac.uk/) を開発しました。 CORE は、機関および主題リポジトリ、オープンアクセスおよびハイブリッドジャーナルを含む、世界中の何千ものデータプロバイダーからのオープンアクセスの研究論文を集約しています。 CORE は OA 文献の最大のコレクションです。この記事の執筆時点では、世界中の 1 万以上のデータ プロバイダーから収集された科学文献への単一アクセス ポイントを提供しており、そのコレクションは常に増加しています。 無料の API やデータの完全なダンプなど、ユーザーとマシンの両方がデータにアクセスするためのさまざまな方法を提供します。

2023 年 1 月の時点で、API ユーザーは 4,700 人、登録データセットは 2,880 人が登録しており、70 を超える機関がリポジトリ システムで CORE Recommender を使用するために登録しています。

この研究の主な貢献は、CORE の継続的に成長するデータセットの開発と、このコーパス上に構築されたツールとサービスです。 このペーパーでは、データセット作成の背後にある動機と、それを組み立てて継続的に最新の状態に保つための課題と方法について説明します。 この規模の研究論文集を作成することで生じる課題を克服するには、収穫と資源管理に対する革新的なソリューションを考案する必要がありました。 研究文献を集約するプロセスの改善に貢献した、この分野における当社の主な革新には次のものがあります。

コンテンツ収集用に設計されていない、広く採用されている既存のメタデータ交換プロトコルの機能を拡張して、研究論文の全文を効率的に収集できるようにする方法を考案する。

新しいハーベスティング アプローチ (ここでは CHARS と呼びます) を開発することで、水平方向のスケーラビリティ、回復可能性、信頼性を向上させながら、利用可能なコンピューティング リソースを継続的に利用できるようになります。

利用可能なコンピューティング リソースを効果的に利用しながら、データの最新性を最適化する、収集されたリソースの更新をスケジュールするための効率的なアルゴリズムを設計します。

本稿は以下のように構成されている。 まず、このセクションの残りの部分では、科学文献の大規模なテキストおよびデータ マイニングを必要とするいくつかのユース ケースを示し、これらのタスクでデータを取得する際の課題について説明します。 次に、CORE が提供するデータと、数千のリポジトリや主要な科学出版社から全文オープンアクセス論文を体系的に収集するためのアプローチを紹介します。

デジタル ライブラリでは、レコードという用語は通常、テキスト、画像、ビデオなどのデジタル オブジェクトを表すために使用されます。 この論文および CORE のデータに言及する場合、研究出版物のメタデータ (タイトル、著者、要約、プロジェクト資金の詳細など) を指すためにメタデータ レコードという用語を使用し、説明するために全文レコードという用語を使用します。フルテキストが関連付けられたメタデータ レコード。

データプロバイダーという用語は、レコードを収集するデータベースまたはデータセットを指すために使用されます。 CORE によって収集されるデータ プロバイダーには、専門機関および機関のリポジトリ、出版社、その他のデータベースが含まれます。

科学文献へのオープン アクセス (OA) について話すとき、私たちはブダペスト オープン アクセス イニシアティブ (BOAI) の定義を参照します。この定義では、OA を「公共のインターネット上で無料で利用でき、あらゆるユーザーが読み取り、ダウンロード、コピー、配布、印刷、これらの記事の検索、全文へのリンク、インデックス作成のためのクロール、データとしてソフトウェアに渡すこと、またはその他の合法的な目的で使用することはできません。」 (https://www.budapestopenaccessinitiative.org/read)。 オープンアクセスには 2 つのルートがあります。1) OA リポジトリと 2) OA ジャーナルです。 前者は出版物をリポジトリにセルフアーカイブ(保管)することで実現でき(グリーン OA)、後者は論文を OA ジャーナルに直接公開する(ゴールド OA)ことで実現できます。

テキストおよびデータ マイニング (TDM) は、コンピューターがさまざまな文書リソース (http://bit.ly/jisc-textm) から情報を自動的に抽出することによって、これまで知られていなかった新しい情報を発見することです。 科学文献の TDM の広範な目標は、デジタル文書から有用な情報を取得したり、これらの文書へのアクセスを改善したり、これらの文書を科学的発見をサポートするために使用したりできるツールを構築することです。 科学文献の OA と TDM には共通点が 1 つあります。どちらも、人々の科学知識へのアクセスを改善することを目的としています。 OA は、オープンに利用できる研究の利用可能性を広げることを目的としていますが、TDM は、科学的知識を発見、理解、解釈する能力を向上させることを目的としています。

科学文献の TDM はますます多くのアプリケーションで使用されていますが、その多くは、多くの出版社やその他のデータ プロバイダーからのデータにアクセスする際の難しさのため、最近まで実現できませんでした。 テキストおよびデータ マイニングを伴う多くのユース ケースは、できるだけ大規模な研究論文のコーパスに対して実行する場合にのみその可能性を最大限に発揮できるため、これらのデータ アクセスの問題により、以下で説明するユース ケースの多くは達成が非常に困難になっています。 たとえば、新しく投稿された出版物の盗作を確実に検出するには、あらゆる分野にわたる出版文献の常に最新のデータセットにアクセスする必要があります。 データのニーズに基づいて、科学文献の TDM ユースケースは次の 2 つのカテゴリに大別できます (図 1 を参照)。

アプリオリに定義されたサンプル ユース ケース: ユース ケースの実行前に指定できる科学出版物のサブセットへのアクセスを必要とするユース ケース。 たとえば、2000 年から 2010 年の間に特定の疾患に対して治験が行われたすべての治療法のリストを収集することは、このような使用例の典型的な例です。

未定義のサンプル ユース ケース: 事前に定義されたデータ サンプルを使用して完了できないユース ケース。 このようなユースケースの実行では、実行前には知られていなかったデータへのアクセスが必要になる場合や、利用可能なすべてのデータへのアクセスが必要になる場合があります。 盗作の検出は、そのようなユースケースの典型的な例です。

例では、科学文献のテキストおよびデータ マイニングのケースを使用します。 データのニーズに応じて、TDM の使用は、a) 事前に定義されたサンプル ユース ケースと、b) 未定義のサンプル ユース ケースに分類できます。 さらに、TDM の使用例は、1) 文献へのアクセスとその整理を改善することを目的とした間接的なアプリケーションと、2) 特定の質問に答えたり、洞察を得ることに重点を置いた直接的なアプリケーションに大別できます。

ただし、これらのアプリケーションのデータへのアクセスを大幅に複雑にする要因が多数あります。 必要なデータは多くのパブリッシャー、リポジトリ、その他のデータベースに分散していることが多く、相互運用性が欠けていることがよくあります (これらの要素については次のセクションで詳しく説明します)。 したがって、これらの分野に取り組む研究者や開発者は通常、コーパス収集にかなりの時間を投資し、これは総調査時間の最大 90% に達する可能性があります5。 多くの人にとって、このタスクは技術的な制限やパブリッシャー プラットフォームの制限により不可能であることが判明する可能性さえあります。その一部については次のセクションで説明します。 したがって、そのような分析を可能にするために、グローバルで継続的に更新され、ダウンロード可能な全文出版物のデータセットが必要となります。

おそらく、関連する研究文献を効果的かつタイムリーに取得する上での最大の障害は、相互運用性がほとんど、またはまったくない状態で研究文献がさまざまな場所に保存されている可能性があることです。たとえば、個々の機関のリポジトリ、出版社のデータベース、会議やジャーナルの Web サイト、プレプリント データベース、およびその他の場所にあり、通常、それぞれの場所でデータにアクセスするための異なる手段が提供されます。 リポジトリは多くの場合、メタデータ収集のための標準プロトコルである Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) を実装していますが、パブリッシャーは通常、標準化されておらず、変更される可能性があるカスタムメイドの API を介してデータへのアクセスを許可しています6。 他のデータ ソースでは、さまざまな形式で静的データ ダンプが提供されたり、データへのプログラムによるアクセスがまったく提供されなかったりする場合があります。

ただし、出版メタデータを取得できた場合でも、データ収集プロセスに含まれる他の手順により、TDM アプリケーションに適した最終データセットの作成が複雑になります。 たとえば、ダウンロードされたすべての文書内の科学出版物の識別、これらの出版物と元の出版物のメタデータとの正確な照合、および PDF 形式などの出版に使用される形式からテキストおよびデータ マイニングに適したテキスト表現への変換は、このプロセスに伴うさらなる困難のほんの一部です。 このプロセスに含まれる一般的な最小ステップを図 2 に示します。異なるプラットフォーム間での相互運用性を提供する広く採用されているソリューションがないため、それぞれにカスタムのハーベスティング ソリューションを作成する必要があります。

データ収集プロセスの例。 この図は、科学文献の TDM 用のデータセットを作成するために必要な典型的な最小限の手順を示しています。 ユースケースに応じて、数十または数百の異なるデータソースにアクセスする必要があり、それぞれに異なるプロセスが必要になる可能性があります。たとえば、異なる API メソッドのセットにアクセスしたり、出版物の全文をダウンロードするための異なるプロセスが必要になる場合があります。 さらに、ユースケースによっては、参照の抽出、重複アイテムの特定、出版物の言語の検出などの追加の手順が必要になる場合があります。 CORE のコンテキストでは、「メソッド」セクションでこのプロセスの詳細を説明します。

オープンアクセスのジャーナルとリポジトリは、資金提供者と機関のオープンアクセスポリシーの導入のおかげで、ますますオープンアクセスコンテンツの中心的なプロバイダーになりつつあります7。 オープン アクセス リポジトリには、ケンブリッジ大学リポジトリ https://www.repository.cam.ac.uk/ などの機関リポジトリと、arXiv https://arxiv.org/ などの主題リポジトリが含まれます。 2023 年 2 月の時点で、Open Access Repositories のディレクトリ http://v2.sherpa.ac.uk/opendoar/ (OpenDOAR) には 6,015 のオープン アクセス リポジトリがインデックスされており、Open Access Repositories のディレクトリには 18,935 のオープン アクセス ジャーナルがインデックスされています。ジャーナル https://doaj.org/ (DOAJ) にアクセスします。 ただし、オープンアクセスの研究文献は、出版社や会議の Web サイト、個人の研究者の Web サイトなど、さまざまな場所に保存される場合があります。 したがって、オープン アクセス コンテンツを収集するシステムは、数千のデータ プロバイダーから効果的に収集できる必要があります。 さらに、多数のオープン アクセス リポジトリ (2018 年 1 月現在、OpenDOAR でインデックス付けされているリポジトリの 69.4%) は、OAI-PMH プロトコルを通じてデータを公開していますが、多くの場合、代替手段は提供されていません。 したがって、オープン アクセス収集システムは、オープン アクセス コンテンツ収集のために OAI-PMH を効果的に利用できる必要もあります。 ただし、これら 2 つの要件 (数千のデータ プロバイダーからの収集と、コンテンツ収集のための OAI-PMH の利用) により、スケーラビリティに多くの重大な課題が生じます。

オープン アクセス データ プロバイダーの規模は大きく異なり、数百万のドキュメントをホストしているプロバイダーもあれば、大幅に少ないドキュメントをホストしているプロバイダーもあります。 多くの場合、新しいドキュメントが追加され、古いドキュメントはデータ プロバイダーによって毎日更新されます。

地理的位置やインターネット接続速度が異なると、たとえ出版物の数が同じであっても、異なるプロバイダーから情報を収集するのに必要な時間が大幅に異なる場合があります。 表 1 に示すように、一般的に使用されるリポジトリ プラットフォームにはさまざまな OAI-PMH 実装があり、大幅に異なる収集パフォーマンスを提供します。 このテーブルを作成するために、8 つの異なるリポジトリ プラットフォームをカバーする、CORE 内の 1,439 個のリポジトリの OAI-PMH メタデータ収集パフォーマンスを分析しました。 OAI-PMH プロトコルでは、メタデータが Dublin Core (DC) 形式で表現されることのみが必要であることに注意してください。 ただし、他の形式でメタデータを表現するように拡張することもできます。 Dublin-Core 標準はわずか 15 要素に制限されているため、OAI-PMH リポジトリが Rioxx (https://rioxx.net) や OpenAIRE ガイドライン (https://) などの拡張メタデータ形式を使用することも珍しくありません。 www.openaire.eu/openaire-guidelines-for-literature-institutional-and-thematic-repositories)。

さらに、収集はデータ プロバイダーに関連する要因だけでなく、アグリゲーターが利用できるコンピューティング リソース (ハードウェア) によっても制限されます。 盗作検出や体系的レビューの自動化など、「はじめに」で挙げた多くのユースケースでは、ごく最近のデータにアクセスする必要があり、収集したデータを最新の状態に保ち、コンピューティング リソースを効率的に利用することが、いずれも大きな課題となります。

これらの課題を克服するために、私たちは 2 つの重要な原則に基づいた CORE Harvesting System (CHARS) を設計しました。 1 つ目は、マイクロサービス ソフトウェアの原則をオープン アクセスのコンテンツ収集に適用することです8。 2 つ目は、プロアクティブなハーベスティングと呼ばれる当社の戦略です。これは、現在のニーズに応じてプロバイダーが自動的にスケジュールされることを意味します。 この戦略は、ハーベスティング スケジューラ (CHARS_architecture セクション) で実装されます。 スケジューラは、データ プロバイダーに優先順位を付けるために設計された式を使用します。

スケジューラと CHARS マイクロサービス アーキテクチャを組み合わせることで、現在のコンピューティング リソースの使用状況に応じて収集をスケジュールできるため、収集効率が大幅に向上します。 上記の固定スケジュールのアプローチからプロアクティブな収集に切り替えて以来、コレクションのデータの最新性が大幅に向上し、3 年間でコレクションのサイズを 3 倍に増やすことができました。

上で説明したように、OAI-PMH は現在、リポジトリ間でデータを交換するための標準的な方法です。 OAI-PMH プロトコルはもともとメタデータ収集専用に設計されましたが、広く採用されており、代替手段がないため、フルテキスト収集のエントリ ポイントとして使用されています。 フルテキストの収集は、OAI-PMH を通じて収集されたメタデータ レコードから URL を抽出することによって実現され、抽出された URL は実際のリソースの場所を検出するために使用されます9。 ただし、OAI-PMH プロトコルには多くの制限があるため、大規模なコンテンツ収集には適していません。

メタデータ収集のみを直接サポートします。つまり、コンテンツ収集に使用するには追加機能を実装する必要があります。

OAI-PMH メタデータ内のフルテキスト リンクの場所は標準化されておらず、通常、OAI-PMH メタデータ レコードには複数のリンクが含まれています。 メタデータからは、これらのリンクのどれがリソースの記述された表現を指しているのかは明確ではなく、多くの場合、どのリンクも直接リンクを指していません。 したがって、リソース自体への考えられるすべてのリンクをメタデータから抽出し、正しいリソースを識別するためにテストする必要があります。 さらに、OAI-PMH は、検出されたリソースが本当に記述されたリソースであることを確認するための検証を促進しません。 この問題を克服するために、RIOXX https://rioxx.net/ メタデータ形式または OpenAIRE ガイドライン https://guidelines.openaire.eu/ の採用が推進されています。 ただし、メタデータ レコードと記述されたリソースを明確に接続するという問題は依然として存在します。

OAI-PMH プロトコルのアーキテクチャは本質的にシーケンシャルであるため、非常に大規模なリポジトリからの収集には不向きです。 これは、大規模なリポジトリの処理を並列化できず、障害が発生した場合に収集を回復することができないためです。

OAI-PMH の実装が異なると、スケーラビリティは大幅に異なります。 私たちの分析 (表 1) は、単一のリポジトリ ソフトウェアのみを考慮した場合でも、パフォーマンスが大きく異なる可能性があることを示しています10。

その他の制限には、増分収集の困難、信頼性の問題、メタデータの相互運用性の問題、およびスケーラビリティの問題が含まれます11。

私たちは、これらの多くの問題を克服するソリューションを設計しました。これにより、OAI-PMH を効率的かつ効果的に利用して、リポジトリからオープン アクセス コンテンツを収集できるようになりました。 これらのソリューションについては、コンテンツ収集に OAI-PMH を使用するセクションで説明します。 現在、OAI-PMH を介したコンテンツ収集を可能にするためにさまざまなソリューションや回避策に依存していますが、このセクションに記載されている制限のほとんどは、ResourceSync (http://www) などのより高度なデータ交換プロトコルを採用することによっても対処できます。 .openarchives.org/rs/1.1/resourcesync) プロトコルは、コンテンツ収集 10 と、当社がサポートするデータ プロバイダーのシステムでの採用を念頭に置いて設計されました。

上記のセクションでは、世界中の多くの研究者や組織にとって、数千のデータ プロバイダーから発信される科学文献にフルテキスト レベルで大規模かつ常に最新のシームレスなマシン アクセスが必要であるという重要なニーズを強調してきました。 このシームレスなアクセスを提供することは、CORE の明確な目標であり機能でもあり、他の研究者が CORE データに対して、多くの場合人工知能プロセスを活用した革新的な方法を設計およびテストできるようになりました。 この継続的に更新される膨大なデータセットをまとめるために、相互運用性、スケーラビリティ、定期的なコンテンツの同期、コンテンツの冗長性、不整合などの欠如に関連する課題など、多くの研究課題を克服する必要がありました。 この分野における私たちの主な革新は、「はじめに」セクションで説明したように、研究文献を集約するプロセスの改善です。

この基礎的な研究により、CORE はオープンアクセス論文の大手プロバイダーとなることができました。 CORE によって利用可能なデータの量は 201112 以来増加しており、継続的に最新の状態に保たれています。 2023 年 2 月の時点で、CORE は 2 億 9,100 万件を超えるメタデータ レコードと 3,280 万件の全文オープン アクセス論文へのアクセスを提供しており、PubMed、arXiv、JSTOR データセットよりも大幅に大きい世界最大のオープン アクセス研究論文のアーカイブとなっています。

BASE や Unpaywall など、最初は CORE に似ていると考えられる出版物データベースは他にもありますが、CORE を際立たせる重要な違いを示し、CORE がオープン アクセス文献の独自で調和されたコーパスへのアクセスをどのように提供するかを示します。 これらの既存のサービスの主な違いは、CORE がエンド ユーザーにとって完全に無料で使用できること、フルテキスト コンテンツをホストしていること、および機械処理のためにそのデータにアクセスするためのいくつかの方法を提供していることです。 その結果、CORE は生データ サービスを介して全文へのプレーン テキスト アクセスを提供し、テキスト マイニングおよびデータ マイニングが PDF 形式で作業する必要がなくなるため、テキスト マイニングのために全文を収集して前処理する必要がなくなります。 他の出版物データベースの詳細な比較は、ディスカッションで提供されます。 さらに、CORE を使用すると、収集されたフルテキストに基づいて強力なサービスを構築でき、「ユース ケース」セクションで概説されているすべてのカテゴリのユース ケースをサポートできます。

現在、CORE は生データにアクセスするための 3 つのサービス、API、データセット、および FastSync サービスを提供しています。 CORE API は、研究論文のメタデータと全文の両方へのリアルタイムのマシン アクセスを提供します。 これは、コア データの一部にいつでも確実にアクセスする必要があるアプリケーションを構築することを目的としています。 CORE は RESTful API を提供します。 ユーザーは、サービスにアクセスするための API キーを登録できます。 完全なドキュメントとコード例を含む Python ノートブックは、オンラインの CORE ドキュメント ページ (https://api.core.ac.uk/docs/v3) で見つけることができます。 CORE データセットを使用して、CORE データを一括ダウンロードできます。 最後に、CORE FastSync により、サードパーティ システムはインフラストラクチャ内のすべての CORE データの最新のコピーを常に保持できるようになります。 コンテンツは、オンデマンドのリソース ダンプ機能による同期のスケーラビリティの向上のために当社が最適化した ResourceSync プロトコル 13 上のデータ同期サービスを使用して、CORE で利用可能になるとすぐに転送できます。 CORE FastSync は、高速な増分エンタープライズ データ同期を提供します。

CORE は、最大の最新全文オープン アクセス データセットであり、自由に利用できる研究文献へのアクセスをサポートする世界中で最も広く使用されているサービスの 1 つです。 CORE は、ODC-By としてライセンスされたデータ ダンプを定期的にリリースし、商用および非商用の両方の目的でデータを自由に利用できるようにしています。 API を介した CORE データへのアクセスは、個人的な立場で研究を行っている個人および資金のない研究目的の公的研究機関に自由に提供されます。 CORE は、保証されたサービス サポート レベルで CORE データにアクセスする便利な方法を取得するために、CORE サービスの使用を希望する営利組織にライセンスを提供します。 CORE は Open University によって非営利団体として運営されており、このビジネス モデルにより、99.99% 以上のユーザーが CORE を無料で利用できるようになります。

多数の商業組織が、研究における盗作の検出、専門の学術出版物検索エンジンの構築、科学アシスタントや機械翻訳システムの開発、教育のサポートなど、さまざまな分野でこれらのライセンスの恩恵を受けています。 https://core.ac.uk/概要/推奨事項/パートナー プロジェクト。 CORE データ サービスである CORE API とデータセットは、データ分析、テキスト マイニング アプリケーションの開発、および既存の実稼働システムへの CORE の組み込みに 7,000 人を超える専門家によって使用されています。

さらに、70 を超えるリポジトリ システムが CORE Recommender を使用するために登録しており、このサービスは特にケンブリッジ大学を含む権威ある機関や、arXiv.org などの人気のあるプレプリント サービスで使用されています。 その他の CORE サービスには、CORE Discovery と CORE Repository Dashboard があります。 最初のバージョンは 2019 年 7 月にリリースされ、この記事の執筆時点で 5,000 人を超えるユーザーがいます。 後者は、リポジトリ管理者向けに特別に設計されたツールで、リポジトリ内のコンテンツを管理するためのさまざまなツールへのアクセスを提供します。 CORE リポジトリ ダッシュボードは現在、36 か国の 499 人のユーザーによって使用されています。

このペーパーの残りの部分では、CORE データセットと、それを組み立てて継続的に最新の状態に保つ方法について説明します。 また、集約されたコーパス上に構築されたサービスとツールを紹介し、CORE データセットを使用して特定のユースケースに対応する現実世界のアプリケーションを作成する方法の例をいくつか示します。

はじめにで強調したように、CORE は、人間と機械の両方の処理に関する科学出版物のデータセットとして成長を続けています。 このセクションで説明するように、これはすべての分野にまたがるグローバル データセットであり、専門分野や機関のリポジトリ、出版社、その他のデータベースを含む 1 万以上のデータ プロバイダーから集約された出版物が含まれています。 収集された出版物へのアクセスを向上させるために、CORE は多くのデータ強化手順を実行します。 これには、メタデータと全文抽出、言語と DOI の検出、他のデータベースとのリンクが含まれます。 さらに、CORE は、データに基づいて構築された多数のサービスを提供します。出版物レコメンダー (https://core.ac.uk/services/recommender/)、CORE Discovery サービス (https://core.ac.uk) です。 /services/discovery/) (科学出版物の OA バージョンを検出するツール)、およびリポジトリ管理者用のダッシュボード (https://core.ac.uk/services/repository-dashboard/)。

2023 年 2 月の時点で、CORE は世界最大のオープンアクセス論文のデータセットです (他のシステムとの比較はディスカッションで提供されています)。 CORE は、150 か国にある 1 万以上のデータ プロバイダーから集めた、82 言語で書かれた全文を含む 3,400 万以上の記事を含む 2 億 9,100 万以上のメタデータ レコードをホストしています。 CORE データセットのサイズの詳細を表 2 に示します。表中の「メタデータ レコード」は、CORE 内のすべての有効な (撤回、削除、またはその他の理由で取り消されていない) レコードを表します。 CORE のレコードの約 13% にフルテキストが含まれていることがわかります。 この番号は、原稿が正常にダウンロードされ、プレーン テキストに変換されたレコードを表します。 ただし、レコードのはるかに高い割合には、サードパーティ プロバイダーがホストする追加の無料で利用できる全文記事へのリンクが含まれています。 データのサブセットの分析に基づいて、CORE 内のメタデータ レコードの約 48% がこのカテゴリに分類されると推定されており、CORE には 1 億 3,900 万件の記事に関するオープン アクセスの全文へのリンクが含まれている可能性が高いことが示されています。 学術出版の性質上、同じ論文の複数のバージョンが異なるリポジトリに保管される場合があります。 たとえば、論文の初期バージョンを著者が arXiv や BiorXiv などのプレプリント サーバーに寄託し、その後、新しいバージョンを機関リポジトリにアップロードすることができます。 これらの異なるバージョンを識別して照合することは、重要な作業です。 CORE は、重複を識別するための局所性を考慮したハッシュに基づく技術を開発する研究を実施し、これらを取り込みパイプラインに統合して、OA リポジトリのネットワーク全体から論文のバージョンをリンクし、これらを単一の著作物エンティティの下にグループ化しました。 PDF を含むデータセットの非圧縮バージョンは約 100 TB であるため、CORE 内の多数のレコードはデータセットのサイズ (バイト単位) に直接変換されます。 プレーン テキストを含む CORE データセットの圧縮バージョンは 393 GB に過ぎず、非圧縮の場合は 3.5 TB になります。

最近の研究では、全記事の約 24% ~ 28% が無料で読めると推定されています 2,14。 CORE 内の全文コンテンツの割合がこれらの推定値よりも低い理由はいくつかあります。 主な理由は、無料で読める記事のかなりの部分が、マシンのアクセシビリティに多くの制限があるプラットフォームでホストされているコンテンツである可能性があります。つまり、一部のリポジトリではコンテンツの収集が厳しく制限されているか、完全に禁止されています9。

CORE の成長は、新しい収集システムの導入と効率的な収集スケジューラの作成のおかげで可能になりました。どちらも「方法」セクションで説明します。 CORE 内のメタデータと全文レコードの増加を図 3 に示します。最後に、図 4 に CORE 内の出版物の古さを示します。

2012 年 2 月以降の月ごとの CORE のレコードの増加。「フルテキストの増加」はフルテキストを含むレコードの増加を表し、「メタデータの増加」はフルテキストを含まないレコードの増加を表します。つまり、2 つの数値は重複しません。 2 つのエリア プロットは互いに積み重ねられているため、それらの合計は CORE 内のレコードの合計数を表します。

CORE の出版物の年齢。 図 3 と同様に、「メタデータ」レコードと「フルテキスト」レコードのバーが積み重ねられています。

2023 年 2 月の時点で、CORE は 10,744 のデータ ソースからコンテンツを集約していました。 これらのデータ ソースには、機関リポジトリ (USC デジタル ライブラリやミシガン大学図書館リポジトリなど)、学術出版社 (エルゼビア、シュプリンガー)、オープン アクセス ジャーナル (PLOS)、電子プリントをホストするものを含む主題リポジトリ (arXiv、bioRxiv、ZENODO) が含まれます。 、PubMed Central)およびアグリゲーター(DOAJなど)。 CORE の最大のデータ ソース 10 個を表 3 に示します。CORE のデータ プロバイダーの総数を計算するために、アグリゲーターとパブリッシャーがそれぞれ複数のソースからデータを集約しているにもかかわらず、1 つのデータ ソースとみなします。 すべてのデータプロバイダーの完全なリストは、CORE Web サイトでご覧いただけます。 (https://core.ac.uk/data-providers)。

CORE によって集約されたデータ プロバイダーは 150 か国に存在します。 図 5 は、各国の CORE によって集計されたデータ プロバイダー数の上位 10 か国を、上位 10 の言語とともに示しています。 リポジトリの地理的な広がりは、それらの国の研究経済の規模を主に反映しています。 米国、日本、ドイツ、ブラジル、英国がすべてトップ 6 に入っています。 最初は驚くべきように見えるかもしれない結果の 1 つは、インドネシアのリポジトリの数がリストのトップに位置するのに十分であることです。 2019年のNature誌の記事は、インドネシアが世界のOAリーダーである可能性があることを示しており、2017年に発行されたインドネシア関連の著者による20,000件の雑誌論文のうち81%がオンラインのどこかで無料で読むことができることが判明した。 (https://www.nature.com/articles/d41586-019-01536-5)。 さらに、Crossref にはインドネシアのオープンアクセスジャーナルが多数登録されています。 これにより、この国にはさらに多くの個別リポジトリが存在することになります。

CORE のトップ 10 の言語とトップ 10 のプロバイダーの場所。

強化プロセスの一環として、CORE は言語検出を実行します。 言語は、添付されたメタデータが利用可能な場合はそこから抽出されるか、メタデータで利用できない場合は全文から自動的に識別されます。 言語情報を含むすべての文書の 80% 以上が英語です。 全体として、CORE にはさまざまな言語での出版物が含まれており、そのうちの上位 10 件を図 5 に示します。

CORE データセットは、さまざまなソースから収集されたドキュメントのコレクションで構成されており、その多くにはさまざまな種類の記事が含まれています。 したがって、ジャーナルや会議からの研究論文のほかに、研究論文、プレゼンテーション、技術レポートなどの他の種類の研究成果も含まれます。 さまざまな種類の論文を区別するために、CORE は文書を次の 4 つのカテゴリのいずれかに自動的に分類する方法を実装しています15: (1) 研究論文、(2) 論文、(3) プレゼンテーション、(4) 不明(カテゴリに属さない論文の場合)前の 3 つのカテゴリのいずれか)。 この方法は、記事の全文でトレーニングされた教師あり機械学習モデルに基づいています。 図 6 は、CORE 内の記事のこれら 4 つのカテゴリへの分布を示しています。 CORE によって集約されたコレクションは、主に研究論文で構成されていることがわかります。 私たちは、リポジトリから収集されたデータから、リポジトリに保管されている研究論文の大部分がメタデータに関連付けられた全文を持っていることを観察しました。 これは研究論文には必ずしも当てはまらないため、図 6 は全文の論文のみを対象として作成されているため、CORE の研究論文と比較した研究論文の割合は、実際にはコレクション全体でより高いと予想されます。

文書タイプの分布。

CORE の分野の分布を分析するために、サードパーティのサービスを利用しました。 図 7 は、CORE の 20,758,666 件の出版物のサンプルの主題分布を示しています。 複数の主題を含む出版物の場合、各分野の出版物をカウントします。

20,758,666 件の CORE 出版物のサンプルの対象配布。

各記事の主題は、2021 年 11 月に廃止される前に Microsoft Academic (https://academic.microsoft.com/home) を使用して取得されたものです。私たちの結果は、生物学、医学、物理学が次のように報告されている他の研究と一致しています。このことは、CORE における論文の分布が一般に研究出版物を代表するものであることを示唆しています。

CORE は、あらゆる科学分野の機関、リポジトリ管理者、研究者を含む幅広い利害関係者向けに、いくつかの追加ツールを構築しました。 これらのサービスの使用方法の詳細については、「CORE の取り込み」セクションで説明します。

ダッシュボードは、リポジトリ管理、コンテンツ強化、メタデータ品質評価、オープン アクセス コンプライアンス チェックのためのツール スイートを提供します。 さらに、コンテンツのダウンロードに関する統計と、収集の効率とメタデータの品質を向上させるための提案を提供できます。

CORE Discovery は、ユーザーが自由にアクセスできる研究論文のコピーを発見するのに役立ちます。 Discovery ツールと対話するには、いくつかの方法があります。 まず、リポジトリのプラグインとして、フルテキスト ドキュメントのオープン アクセス コピーへのリンクを備えたリポジトリ内のメタデータのみのページを強化します。 2 つ目は、研究者や科学文書を読むことに興味のある人のためのブラウザ拡張機能を介してです。 そして最後に、開発者向けの API サービスとして。

レコメンダーは、現在表示されている記事に関連する記事を提案する、リポジトリ、ジャーナル システム、および Web インターフェイス用のプラグインです。 その目的は、ユーザーがオープン アクセス リポジトリのネットワーク全体から興味のある記事を発見できるようにサポートすることです。 特に、ケンブリッジ大学などの名門機関や、arXiv.org などの人気のプレプリント サービスで使用されています。

OAI (Open Archives Initiative) 識別子は、メタデータ レコードの一意の識別子です。 OAI 識別子は、Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) を使用してリポジトリのコンテキストで使用されます。 OAI 識別子は、DOI とは対照的に、分散形式で無料で作成でき、発行者ではなくリポジトリに直接解決できる、リポジトリの実行可能な永続識別子です。 CORE OAI リゾルバーは、OAI 識別子を CORE 内のレコードのメタデータ ページに解決するか、関連するリポジトリ ページに直接ルーティングできます。 このアプローチは、知識を広めるプロセスにおいてリポジトリの重要性を高める可能性があります。

2023 年 2 月の時点で、CORE の月間アクティブ ユーザー数は平均 4,000 万人を超え、SimilarWeb (https://www.similarweb.com/) によると、科学と教育のカテゴリでトップ 10 位の Web サイトとなっています。 現在、API ユーザーは 4,700 名、データセット ユーザーは 2,880 名が登録されています。 CORE ダッシュボードは現在 499 の機関リポジトリで、オープン アクセス コンテンツの管理、コンテンツ ダウンロード統計の監視、リポジトリ内のメタデータに関する問題の管理、OA 資金提供者ポリシー (特に英国の REF) への準拠を確保するために使用されています。CORE Discovery プラグインは、 434 のリポジトリがあり、ブラウザ拡張機能は Google Chrome Web ストア (https://chrome.google.com/webstore/category/extensions) 経由で 5,000 人以上のユーザーによってダウンロードされています。 CORE Recommender は、ケンブリッジ大学や arXiv を含む 70 のリポジトリ システムに組み込まれています。

このセクションでは、CORE と他のオープン アクセス アグリゲーション サービスの違いについて説明し、CORE を使用して科学をサポートするサービスを開発した実際の使用例をいくつか紹介します。 このセクションでは、今後の計画についても説明します。

現在、利用可能なオープン アクセス アグリゲーション サービスが数多くあります (表 4)。例としては、BASE (https://base-search.net/)、OpenAIRE (https://www.openaire.eu/)、Unpaywall ( http://unpaywall.org/)、Paperity (https://paperity.org/)。 BASE (Bielfield Academic Search Engine) は、グローバルなメタデータ収集サービスです。 OAI-PMH 経由でリポジトリとジャーナルを収集し、API とデータセットを通じて収集したコンテンツを公開します。 OpenAIRE は、オープン アクセス ポリシーをサポートするオープン アクセス データ プロバイダーのネットワークです。 以前はこのプロジェクトはヨーロッパのリポジトリに焦点を当てていましたが、最近ではヨーロッパ以外の機関リポジトリや対象リポジトリも含めることで拡大しています。 OpenAIRE の主な焦点は、欧州理事会がオープン アクセス ポリシーの遵守を監視できるよう支援することです。 OpenAIRE データは API 経由で公開されます。 Paperity は、オープンアクセスのジャーナルから出版物を収集するサービスです。 Paperity はメタデータとフルテキストの両方を収集しますが、フルテキストはホストしません。 SHARE (Shared Access Research Ecosystem) は、米国のリポジトリからオープン アクセス コンテンツを収集するサービスです。 その目的は、ホワイトハウス科学技術政策局 (OSTP) のオープンアクセス ポリシーの遵守を支援することです。 SHARE はメタデータとフルテキストの両方を収集しますが、後者はホストしません。 Unpaywall は主にハーベスターではなく、無料で読めるバージョンが取得できる場合は常に Crossref からコンテンツを収集します。 メタデータとフルテキストの両方を処理しますが、それらをホストしません。 API を介して、検出されたドキュメントへのリンクを公開します。

CORE は多くの点でこれらのサービスとは異なります。 CORE は現在、全文 OA 文書の最大のデータベースです。 さらに、CORE は、その API を介して、コレクション内の各アイテムの豊富なメタデータ レコードを提供します。これには追加のエンリッチメントが含まれます。これは、たとえば、無料で読めるバージョンが提供されているかどうかに関する情報をユーザーに提供することだけに重点を置いている Unpaywall の API とは対照的です。利用可能。 CORE は、OA コンテンツへのリンクも最も多く提供しています。 エンドユーザーがデータに簡単にアクセスできるように、そのコレクションにアクセスするためのさまざまな方法が提供されています。 上記のサービスはすべて研究目的で無料で使用できますが、CORE と Unpaywall はどちらも商用パートナーに有料でサービスを提供しています。

OA アグリゲーション サービスとは別に、科学文献を検索およびダウンロードするためのサービスが多数存在します (表 5)。 主要な出版物データベースの 1 つは、DOI 識別子の信頼できるインデックスである Crossref (https://www.crossref.org/) です。 その主な機能は、各 DOI に関連付けられたメタデータ情報を維持することです。 Crossref によって保存されるメタデータには、OA レコードと非 OA レコードの両方が含まれます。 Crossref は出版物の全文を保存しませんが、多くの出版物では全文リンクが提供されます。 2023 年 2 月の時点で、Crossref の 590 万件のレコードが明示的なクリエイティブ コモンズ ライセンスに関連付けられていました (この数を決定するために Crossref API を使用しました)。 Crossref は API を提供しますが、データを一括ダウンロードしたり、データ同期サービスを提供したりすることはありません。

表 5 の残りのサービスは、次の 2 つのカテゴリに大まかに分類できます: 1) 引用インデックス、2) 学術検索エンジンおよび学術グラフ。 2 つの主要な引用インデックスは、Elsevier の Scopus (https://www.elsevier.com/solutions/scopus) と Clarivate の Web of Science (https://clarivate.com/webofsciencegroup/solutions/web-of-science/) です。そのうちのプレミアムサブスクリプションサービスです。 最もよく知られた学術検索エンジンである Google Scholar は、データにアクセスするための API を提供しておらず、Web サイトのクロールも許可していません。 Semantic Sc​​holar (https://www.semanticscholar.org/) は、「インテリジェントな学術検索エンジン」18 の作成を目的とした比較的新しい学術検索サービスです。 Dimensions (https://www.dimensions.ai/) は、データ分析に焦点を当てたサービスです。 出版物、助成金、政策文書、指標が統合されています。 1findr (https://1findr.1science.com/home) は、厳選された要約索引付けサービスです。 全文へのリンクは提供されていますが、ダウンロード用の API やデータセットは提供されていません。

オープンアクセス論文の大規模なデータセットへのアクセスを提供すると主張するサービスは他にもあります。 特に、Unpaywall2 は 4,640 万件の無料で読める記事へのアクセスを提供すると主張し、BASE は 3 億件のメタデータ レコードの約 60% の全文へのアクセスを提供すると述べています。 ただし、これらの統計は、私たちが報告する数字と直接比較できるものではなく、これら 2 つのプロジェクトの異なる焦点の産物です。 これは、BASE の分析と現在の Unpaywall の両方が、人間のユーザーがリソースの全文に移動できる URL のリストを持つという観点から「アクセスの提供」を定義しているためです。 これは、Unpaywall と BASE の両方がこれらのフルテキスト リソースを収集しないことを意味します。これが、彼らが「はじめに」で説明した多くの課題に直面しない理由でもあります。 このアプローチを使用すると、CORE データセットは約 1 億 3,900 万のフルテキストへのアクセスを提供すると言えます。つまり、2 億 9,100 万のメタデータ レコードの約 48% が、人間がフルテキストに移動できる URL を指しています。 しかし、科学文献のテキストおよびデータ マイニングに関係する人々にとって、Web 上のさまざまなドメインを指す URL を、利用可能な全文の数として数えることはほとんど意味がありません。

その結果、当社の 3,280 万件の統計は、当社が特定、ダウンロード、テキストの抽出、メタデータ レコードとの関係の検証、および CORE サーバー上でホストして他のユーザーが利用できるようにした全文との関係を検証した OA ドキュメントの数を指します。 対照的に、BASE と Unpaywall は、アクセスを提供するリソースの全文を集約していないため、これらのリソースの全文を操作する手段や、学術文献のテキスト分析のためのこれらのリソースの一括ダウンロード機能を提供しません。

また、CORE データを OpenMinTeD インフラストラクチャと統合しました。OpenMinTeD インフラストラクチャは、クラウドで学術文献のテキスト マイニング用のプラットフォームを提供することを目的とした欧州委員会の資金提供プロジェクトです6。

多くの学界および産業界のパートナーがサービスに CORE を活用しています。 このセクションでは、テキストおよびデータ マイニングのユース ケースをサポートするために CORE を利用する方法を示す、CORE の既存の 3 つの使用法を紹介します。

2017 年以来、CORE はさまざまな学術検索および発見システムと協力してきました。 これらには、Naver (https://naver.com/)、Lean Library (https://www.leanlibrary.com/)、Ontochem (https://ontochem.com/) が含まれます。 この作業の一環として、CORE は、これらのシステム内の既存の記録に研究論文の全文コピーを提供するプロバイダー (Lean Library) として機能し、さらにはインデックス作成用のメタデータと全文の両方を提供します (Ontochem、NAVER)。 このコラボレーションは、CORE のデータ プロバイダーにとっても、コンテンツの拡張と可視性の向上につながります。

2019 年、CORE は盗作検出ソフトウェアの世界的リーダーである Turnitin と提携しました。 CORE FastSync サービスを使用することにより、Turnitin 独自の Web クローラーはオープン アクセス コンテンツとメタデータの CORE グローバル データベースを検索し、テキストの類似性をチェックします。 このパートナーシップにより、Turnitin はコンテンツ データベースを高速かつ効率的な方法で大幅に拡大できるようになります。 さらに、オープン アクセス コンテンツを悪用から保護し、著者や機関を保護することにも役立ちます。

2023 年 2 月の時点で、CORE Recommender19 はケンブリッジ大学の機関リポジトリや arXiv.org などを含む 70 以上のリポジトリでアクティブに実行されています。 レコメンダーの目的は、ホスティング リポジトリのコレクションと CORE コレクションの両方で同様の研究論文の提案を提供することにより、研究成果の発見可能性を向上させることです。 CORE Recommender は何百万ものオープンアクセスの研究論文へのゲートとして機能するため、リポジトリ管理者はリコメンダーをインストールして、他の科学論文へのアクセシビリティを向上させ、他の科学コミュニティへの働きかけを行うことができます。 このレコメンダーは CORE 検索機能と統合されており、EPrints、DSpace などのすべてのリポジトリ ソフトウェアのほか、オープン アクセスのジャーナルやその他の Web ページのプラグインとしても提供されます。 CORE がオープン リポジトリを収集するという事実に基づいて、レコメンダは、全文がオープン アクセスとして利用可能な、つまりアクセス障壁や限られた権利制限なしですぐに使用できる研究論文のみを表示します。 CORE は、推奨者を通じて、オープンアクセスの科学論文の最も広範囲な発見と配布を促進します。

CORE の継続的な目標は、コレクションを拡大し続けて、世界中のすべてのオープンアクセス研究への単一アクセス ポイントとなることです。 ただし、コレクションのサイズとアクセスのしやすさの両方を改善するために、他にも多くの方法を計画しています。 CORE Harvesting System は、新しい収集ステップとエンリッチメント タスクを追加できるように設計されました。 このような機能をさらに追加する余地はまだ残っています。 これらの中には、科学引用の分類など、機械学習を活用したものもあります20。 さらに、CORE は現在、同じ記事の異なるバージョンを識別してリンクするための新しい方法論を開発中です。 CORE Works と名付けられた提案されたシステムは、OA インフラストラクチャ環境における CORE の中心的な位置を活用し、一意の識別子を使用して同じ論文の異なるバージョンをリンクします。 私たちは今後も CORE コレクションを他のサービスの学術エンティティにリンクし続け、それによって CORE データを世界的な学術知識グラフに参加させます。

「はじめに」セクションでは、研究者がテキストマイニングやデータマイニングのために研究文献を収集する際に直面する多くの課題に焦点を当てました。 このセクションでは、代わりに研究文献アグリゲーターの視点に焦点を当てます。つまり、世界中の何千ものデータプロバイダーから集約された研究文献へのシームレスなアクセスを継続的に提供し、結果として得られる研究出版物のコレクションを利用できるようにすることを目標とするシステムです。実稼働アプリケーションで他の人によって実行されます。 このコレクションを構築し、常に最新の状態に保つために克服しなければならなかった課題について説明し、CORE コレクションのサイズを大幅に拡大し、オープンアクセス文献の主要プロバイダーになることを可能にした主要な技術革新を紹介します。これは、コンテンツ増加統計を使用して説明します。

CORE Harvesting System (CHARS) は、当社の収穫プロセスのバックボーンです。 CHARS は、ハーベスティング スケジューラ (セクション CHARS_architecture) を使用して、次に処理するデータ プロバイダーを選択します。 実行中のすべてのプロセス (タスク) を管理し、利用可能なコンピューティング リソースが適切に活用されるようにします。

CHARS を実装する前は、CORE はデータ プロバイダーの収集と処理に必要な個別のタスク (メタデータのダウンロードと解析、フルテキストのダウンロードなど) ではなく、データ プロバイダーを中心に集中化されていました。 その結果、このシステムのスケールアップと継続は可能でしたが、インフラストラクチャは水平方向に拡張できず、アーキテクチャはサービスの密結合に悩まされました。 これは CORE の高可用性要件と一致せず、メンテナンスの複雑さにおいて定期的に問題を引き起こしていました。 これらの課題に対応して、私たちはマイクロサービス アーキテクチャを使用して CHARS を設計しました。つまり、大規模なインフラストラクチャの一部として連携して動作する、管理可能な小さな自律コンポーネントを使用しました。 マイクロサービス指向アーキテクチャの主な利点の 1 つは、実装の焦点を個々のコンポーネントに置くことができ、必要に応じて頻繁に、インフラストラクチャの他の部分から独立して改善および再デプロイできることです。 オープン アクセス コンテンツ収集のプロセスは本質的に個々の連続タスクに分割できるため、マイクロサービス指向のアーキテクチャは CHARS のような集約システムに自然に適合します。

収集プロセスは、各タスクが特定のアクションを実行し、各タスクの出力が次のタスクにフィードされるパイプラインとして説明できます。 このパイプラインへの入力はデータ プロバイダーのセットであり、最終出力はデータ プロバイダーから入手可能な研究論文のレコードが入力されたシステムです。 CORE の収集システムの一部として現在実行されている主なタスクの主なタイプは次のとおりです (図 8)。

メタデータのダウンロード: OAI-PMH 経由でデータ プロバイダーによって公開されるメタデータは、ダウンロードされ、ファイル システムに (通常は XML として) 保存されます。 ダウンロード プロセスは逐次的に行われます。つまり、リポジトリは通常、リクエストごとに 100 ~ 1,000 個のメタデータ レコードと再開トークンを提供します。 このトークンは、次のバッチを提供するために使用されます。 その結果、大規模なデータ プロバイダーにとって、完全な収集にはかなりの時間 (数時間から数日) がかかる可能性があります。 したがって、このプロセスは、さまざまな通信障害に対する回復力を提供するために実装されています。

メタデータ抽出: メタデータ抽出では、ダウンロードされたメタデータを解析、クリーンアップ、調和させて、CORE 内部データ構造 (データベース) に保存します。 調和およびクリーニングのプロセスは、異なるデータ プロバイダー/リポジトリ プラットフォームが同じ情報を異なる方法で記述する (構文的な異質性) だけでなく、同じ情報に対して異なる解釈がある (意味的な異質性) という事実に対処します。

全文ダウンロード: メタデータから抽出されたリンクを使用して、CORE は出版原稿のダウンロードと保存を試みます。 このプロセスは簡単ではありません。詳細については、「コンテンツ収集のための OAI-PMH の使用」セクションで説明します。

情報抽出: ダウンロードされた原稿からプレーンテキストが抽出および処理されて、半構造化表現が作成されます。 このプロセスには、参考文献の抽出など、さまざまな情報抽出タスクが含まれます。

エンリッチメント: エンリッチメント タスクは、複数のソースからの追加データを使用して、データ プロバイダーから収集したメタデータとフルテキストの両方を増やすことによって機能します。 エンリッチメントの一部は、言語検出やドキュメント タイプ検出など、パイプライン内の特定のタスクによって直接実行されます。 外部データセットを含む残りのエンリッチメントは、CHARS パイプラインに対して外部かつ独立して実行され、「エンリッチメント」セクションで説明されているようにデータセットに取り込まれます。

インデックス作成: 収集パイプラインの最後のステップは、収集されたデータのインデックス作成です。 結果として得られるインデックスは、検索、API、FastSync などの CORE のサービスを強化します。

CORE ハーベスティング パイプライン。 各タスクの出力は、次のタスクの入力を生成します。 場合によっては、入力が全体として考慮される場合もあります (たとえば、データ プロバイダーから収集されたすべてのコンテンツなど)。また、出力がレコード レベルで実行される複数の小さなタスクに分割される場合もあります。

収集システムの開発と保守中に得た経験に基づいて、また CiteSeerX22 アーキテクチャの機能を考慮して、スケーラブルな収集インフラストラクチャのための一連の要件を定義しました8。 これらの要件は一般的なもので、あらゆる集約またはデジタル ライブラリのシナリオに適用されます。 これらの要件は、CHARS のアーキテクチャ設計に反映されます (CHARS アーキテクチャのセクション)。

保守が簡単: システムは、管理、保守、修正、改善が簡単である必要があります。

高レベルの自動化: システムは、手動操作を可能にしながら完全に自律的である必要があります。

フェイルファスト: パイプラインの最後に 1 回だけ最終検証を行うのではなく、ハーベスティング パイプライン内の項目をタスクの実行直後に検証する必要があります。 これには、プロセスの早い段階で問題を認識し、修正を可能にするという利点があります。

トラブルシューティングが簡単: コードのバグの可能性を簡単に識別できる必要があります。

分散型でスケーラブル: より多くのコンピューティング リソースを追加すると、スケーラビリティが向上し、透過的で複製可能になる必要があります。

単一障害点がない: 単一のクラッシュがハーベスティング パイプライン全体に影響を与えるべきではなく、個々のタスクが独立して動作する必要があります。

ユーザー向けシステムからの分離: 取り込み処理サービスで障害が発生しても、ユーザー向けサービスに直ちに影響を与えるべきではありません。

回復可能: 手動または障害により収集タスクが停止した場合、システムは手動介入なしで回復してタスクを再開できる必要があります。

観察可能なパフォーマンス: システムの進行状況を常に適切に記録する必要があり、サービスの進行状況の透過的な概要を常に提供するオーバーレイ監視サービスを設定して、スケーラビリティの問題を早期に検出し、潜在的なボトルネックを特定できるようにする必要があります。

CHARS の概要を図 9 に示します。システムは次の主要なソフトウェア コンポーネントで構成されます。

スケジューラ: タスクが終了するとアクティブになります。 リソースの使用状況を監視し、収集するデータ プロバイダーを選択して送信します。

キュー (Qn): 収集パイプラインの部分間の通信を支援するメッセージング システム。 メタデータのダウンロード、メタデータの解析、全文ダウンロード、言語検出などの個々のタスクにはそれぞれ独自のメッセージ キューがあります。

ワーカー (Wi): 特定のタスクを実行できる独立したスタンドアロン アプリケーション。 個々のタスクにはそれぞれ独自のワーカーのセットがあります。

コア収穫システム。

データプロバイダーの完全な収集は次のように説明できます。 既存のタスクが完了すると、スケジューラが起動され、結果が通知されます。 次に、付録 A で説明されている式を使用して、各データ プロバイダーにスコアを割り当てます。 現在のリソース使用率、つまりアイドル状態のワーカーがあるかどうか、およびすでに収集がスケジュールされているデータ プロバイダーの数に応じて、最も高いスコアを持つデータ プロバイダーが、メタデータのダウンロードがスケジュールされているデータ プロバイダーを含む最初のキュー Q1 に配置されます。 メタデータ ダウンロード ワーカー Wi-Wj の 1 つが利用可能になると、データ プロバイダーがキューから削除され、そのメタデータの新しいダウンロードが開始されます。 完了すると、ワーカーはスケジューラに通知し、タスクが正常に完了すると、データ プロバイダーを次のキューに配置します。 このプロセスは、データ プロバイダーがパイプライン全体を通過するまで続きます。

パイプライン内の一部のタスク、特にメタデータのダウンロードや解析はデータ プロバイダーの粒度で実行する必要がありますが、全文抽出や言語検出などの他のタスクは個々のレコードの粒度で実行できます。 これらのタスクは当初データ プロバイダーの粒度でスケジュールされますが、その後、処理が必要な選択されたデータ プロバイダーの個々のレコードのみが個別に適切なキューに配置されます。 これらのタスクに割り当てられたワーカーはキュー内の個々のレコードを処理し、完了するとパイプライン内を移動します。

CHARS のより詳細な説明 (実装に使用されるテクノロジを含む) およびその他の詳細については、「8」を参照してください。

収集スケジューラは、次に収集する必要があるデータ プロバイダーを識別し、これらのデータ プロバイダーを収集キューに配置する役割を担うコンポーネントです。 CORE の元の設計では、収集スケジュールは手動で作成され、すべてのデータ プロバイダーに同じ収集頻度が割り当てられていました。 ただし、このアプローチは、データ プロバイダーの規模の変化、データベースの更新頻度の違い、リポジトリ プラットフォームの最大データ配信速度の違いにより拡張できないため、非効率的であることがわかりました。 これらの制限に対処するために、私たちは「プロアクティブなハーベスティング」という新しい概念に従って CHARS スケジューラを設計しました。 これは、スケジューラがイベント駆動型であることを意味します。 これは、次にどのデータ プロバイダーを収集するかを決定するために、基盤となるハードウェア インフラストラクチャに利用可能なリソースがあるたびにトリガーされます。 基本的な考え方は、単位時間内に取り込まれるドキュメントの数を最大化することです。 次にどのリポジトリを収集するかを決定するために使用する疑似コードと式については、アルゴリズム 1 で説明します。

メタデータ ダウンロード キュー、つまり収集パイプラインへのエントリを表すキューのサイズは、データ プロバイダーの優先順位付けに対するシステムの応答性を維持するために制限されています。 特定のデータ プロバイダーの処理にどれくらい時間がかかるかが事前にわからないため、キューが長いとデータ プロバイダーの優先順位付けが難しくなります。 キューのサイズを適切に設定すると、利用可能なリソースの反応性と使用率のバランスが適切に保たれます。

次に、OAI-PMH プロトコルを使用してデータ プロバイダーからフルテキスト コンテンツ (単なるメタデータではなく) を収集できるようにする 3 番目の重要な技術革新について説明します。 このプロセスは、収集パイプライン (図 9) の 1 つのステップ、具体的には、データ プロバイダーのメタデータがダウンロードされ解析された後にアクティブ化される 3 番目のステップを表します。

OAI-PMH プロトコルはもともとメタデータ収集のみを目的として設計されましたが、広く採用されており、代替手段が存在しないため、リポジトリからのフルテキスト収集のエントリ ポイントとして使用されています。 フルテキストの収集は、メタデータ レコード内で見つかった URL を使用して実際のリソースの場所を検出し、その後それをダウンロードすることによって実現されます9。 このアプローチの主な課題を「コンテンツ収集のための OAI-PMH プロトコルの使用に関連する課題」セクションにまとめました。 このアルゴリズムは、優先順位を付けた深さ優先検索戦略に従い、最初に一致するドキュメントが見つかるとすぐに終了します。

手順は次のように機能します。 まず、選択したデータ プロバイダーからのフルテキストのないすべてのメタデータ レコードが収集されます。 再試行期間 (RP) (通常は 6 か月) 内に全文ダウンロードが試行されたレコードはフィルターで除外されます。 これは、目的のドキュメントにアクセスできない URL を繰り返しダウンロードすることを避けるためです。 このアプローチの欠点は、データ プロバイダーがメタデータ内のリンクを更新する場合、全文を取得するまでに最大で再試行期間がかかる可能性があることです。

データプロバイダーの収集をスケジュールするための式。 このアルゴリズムでは、利用可能な機能のサブセットのみが考慮されます。アルゴリズムの新たな改善により、プロバイダーのサイズ、場所、以前のエラーなどの追加の要素が考慮される可能性があります。

次に、a) 記載されているドキュメントにつながる URL を迅速に特定できる可能性を高め、b) 正しいドキュメントを確実に特定するために、私たちが開発した一連のルールとヒューリスティックを使用してレコードがさらにフィルタリングされます。 これらのフィルタリング ルールには次のものが含まれます。

受け入れられるファイル拡張子: URL は、受け入れられるファイル拡張子のリストに従ってフィルタリングされます。 URL が必要なリソースにリンクしていないことを明確に示す、.pptx などの拡張子で終わる URL は、リストから削除されます。

同一ドメイン ポリシー: OAI-PMH メタデータ内の URL は、任意のリソースおよびドメインにリンクできます。 たとえば、関連するプレゼンテーション、データセット、または別の関連リソースへのリンクを提供するのが一般的です。 これらは外部データベースに保存されることが多いため、外部ドメイン、つまりデータ プロバイダーのドメインとは異なるドメインにつながるすべての URL をフィルタリングして除外することにより、リソースのダウンロードを回避する簡単な方法になります。対象の書類。 例外には、文書を指す永続的な識別子を提供することを目的とする dx.doi.org および hdl.handle.net ドメインが含まれます。 同じドメイン ポリシーは、アグリゲータであり、設計上多くの異なるドメインにリンクしているデータ プロバイダーに対しては無効になっています。

プロバイダー固有のクロール ヒューリスティック: 多くのデータ プロバイダーは、URL を作成するときに特定のパターンに従います。 たとえば、全文ドキュメントへのリンクは、データ プロバイダー URL + レコード ハンドル + .pdf の部分で構成されている場合があります。 このようなパターンを利用するデータ プロバイダーの場合、関連情報 (レコード ハンドル) がメタデータからわかっている URL が自動的に作成される場合があります。 これらの生成された URL は、メタデータから取得された URL のリストに追加されます。

特定の URL の優先順位付け: PDF URL には HTML URL よりもターゲット レコードが含まれる可能性が高いため、最後のステップでは、ファイルと URL の種類に従って URL を並べ替えます。 リポジトリ ソフトウェア固有のパターンを使用してフルテキスト、ドキュメント、PDF ファイルタイプを識別する URL には最高の優先順位が割り当てられ、hdl.handle.net URL には最低の優先順位が割り当てられます。

次に、システムは各 URL でドキュメントを要求し、ダウンロードしようとします。 各ダウンロード後に、ダウンロードされたドキュメントがターゲット レコードを表すかどうかを判断するためのチェックが実行されます。 現在、ダウンロードされるドキュメントは、元のメタデータ レコードと一致するタイトルを持つ有効な PDF である必要があります。 対象のレコードが特定された場合、ダウンロードされたドキュメントが保存され、そのレコードのダウンロード プロセスが終了します。 ダウンロードされたドキュメントに HTML ページが含まれている場合、URL はこのページから抽出され、上記と同じ方法を使用してフィルタリングされます。 これは、DSpace などの最も広く使用されているリポジトリ システムの一部では、ドキュメントがメタデータ レコード内から直接参照されないことが一般的であるためです。 代わりに、メタデータ レコードは通常、ドキュメントの HTML 概要ページにリンクします。 この問題に対処するために、収穫レベルの概念を使用します。 最大収集レベルは、参照されるドキュメントの最大検索深さに対応します。 このアルゴリズムは、最初に一致するドキュメントが見つかるとすぐに、または最大収集レベルまでの使用可能な URL がすべて使い果たされた後に終了します。 アルゴリズム 2 は、OAI-PMH プロトコルを使用して全文を収集するためのアプローチを説明します。 このアルゴリズムは、優先順位を付けた深さ優先検索戦略に従い、最初に一致するドキュメントが見つかるとすぐに終了します。

OAI-PMH プロトコルを使用してフルテキスト コンテンツを収集する手順。

リポジトリからコンテンツをスケーラブルに収集するための重要な問題は克服されましたが、依然として多くの重要な課題が残っています。 1 つ目は、システムを効率的に実行するために最適なワーカー数を見積もることの難しさに関係しています。 ワーカーの割り当ては依然として経験的にほぼ確立されていますが、私たちはペトリ ネットなどの分散コンピューティングの正式なモデルに基づいた、より洗練されたアプローチを研究しています。 これにより、リソースの使用を最適化するためにワーカーを動的に割り当てて起動するための新しいアプローチを調査できるようになります。

概念的には、CORE 内では 2 種類のエンリッチメント プロセスが使用されます。1) CHARS パイプラインによる処理時に単一のレコードをエンリッチするオンライン エンリッチメント プロセスと、2) 外部の情報に基づいてレコードをエンリッチする定期的なオフライン エンリッチメント プロセスデータセット (図 10)。

CORE オフライン エンリッチメント。

オンライン エンリッチメントは、このセクションで前述した CHARS パイプラインに完全に統合されています。 これらの強化には通常、言語検出や文書タイプ検出など、レコードに関する追加の洞察を収集するための機械学習モデルとルールベースのツールの適用が含まれます。 オフライン エンリッチメントとは対照的に、オンライン エンリッチメントは、特定のレコードに対して常に 1 回だけ実行されます。 以下は、オンラインで実行される現在のエンリッチメントのリストです。

記事タイプの検出: 機械学習アルゴリズムにより、各出版物にプレゼンテーション、論文、研究論文、その他の 4 つのタイプのいずれかが割り当てられます。 将来的には他のタイプも含める可能性があります。

言語の識別: このタスクでは、サードパーティのライブラリを使用して、ドキュメントの全文に基づいて言語を識別します。 結果の言語は、メタデータ レコードによって提供される言語と比較されます。 言語の曖昧さをなくし、調和させるために、いくつかのヒューリスティックが適用されます。

オフライン エンリッチメントは、大規模なサードパーティの学術データセット (研究グラフ) からさまざまな情報を収集することによって実行されます。 このような情報には、DOI 識別子などの必ずしも変化しないメタデータや、引用数などの進化するメタデータが含まれます。 特に後者の理由により、CORE はオフライン エンリッチメントを定期的に実行します。つまり、CORE 内のすべてのレコードは、指定された時間間隔 (現在は月に 1 回) でこのプロセスを繰り返し実行します。

このプロセスを図 10 に示します。レコードの初期マッピングは、利用可能な場合は DOI を使用して実行されます。 ただし、リポジトリのレコードの大部分には DOI が付属していないため、タイトル、著者、年などのメタデータ フィールドのサブセットを使用して、Crossref データベースとの照合プロセスを実行します。 マッピングが実行されると、フィールドを調和させるだけでなく、関連する外部データベースから追​​加の有用なデータを幅広く収集して、CORE レコードを充実させることができます。 このようなデータには、ORCID 識別子、引用情報、自由に利用できる全文への追加リンク、研究分野情報、PubMed 識別子が含まれます。 当社のソリューションは、データセットを強化するための一連のマップリデュース タスクに基づいており、Cloudera Enterprise Data Hub (https://www.cloudera.com/products/enterprise-data-hub.html) に実装されています23、24、25 、26。

CORE は、ODC-BY ライセンス (https://core.ac.uk/documentation/dataset) に基づいて、処理および集約されたデータの大規模なデータ ダンプをいくつか提供します。 これらのデータセットを商用および非商用の両方で再利用するための唯一の条件は、出力での CORE の使用を承認することです。 さらに、CORE は、その API と最新のデータダンプを、登録された個人ユーザーと研究者が無料で利用できるようにしています。 CORE は、オープンアクセスであり、誰もが自由に利用できる集約コンテンツ自体に対する権利を主張しないことに注意してください。 すべての CORE データの権利は、集約および処理されたコレクションの一般的なデータベースの権利に対応します。

API や FastSync などの CORE サービスのライセンスは、保証レベルのカスタマー サポートとともに CORE データへの便利なアクセスのメリットを享受したい商用ユーザー向けに提供されています。 CORE を運営する組織、つまりオープン ユニバーシティは、オープン リサーチの使命に全力で取り組んでいる慈善団体です。 CORE は、オープン学術インフラストラクチャ原則 (POSI) (https://openscholarlyinfrastructural.org/posse) に署名しています。 利益の創出は行われません。 代わりに、営利団体へのライセンスからの CORE の収入は、CORE が不安定なプロジェクト補助金への依存を軽減できるようにすることで持続可能性を提供するためにのみ使用され、納税者の​​ CORE コストを相殺し、削減します。 これは、持続可能なオープン サイエンス インフラストラクチャの原則とベスト プラクティスに完全に準拠して行われます。

CORE は複数のサービスで構成されます。 私たちのソース コードのほとんどはオープン ソースであり、GitHub (https://github.com/oacore/) のパブリック リポジトリで入手できます。 本日の時点では、残念ながらまだデータ取り込みモジュールにソース コードを提供できません。 ただし、コミュニティに対して可能な限り透明性を保ちたいため、擬似コードを使用して適用する主要なアルゴリズムとプロセスをこの文書に文書化しました。

Bornmann, L. & Mutz, R. 現代科学の成長率: 出版物と引用文献の数に基づく書誌学的分析。 JASIST 66(11)、2215–2222 (2015)。

CAS Google スカラー

Piwowar, H. et al. OA の現状: オープンアクセス論文の普及と影響に関する大規模な分析。 PeerJ 6、e4375 (2018)。

論文 PubMed PubMed Central Google Scholar

Saggion, H. & Ronzano, F. 学術データ マイニング: 科学文献の意味を理解する。 2017 ACM/IEEE デジタル ライブラリに関する共同会議 (JCDL): 1–2 (2017)。

キム、Eら。 テキスト抽出と機械学習による科学文献からの材料合成の洞察。 材料の化学 29(21)、9436–9444 (2017)。

記事 CAS Google Scholar

Jacobs, N. & Ferguson, N. 英国のオープンアクセス研究成果をまとめる: オープンアクセスへのベルリンの道の障壁。 Jisc リポジトリ (2014)。

Knoth, P.、Pontika, N. テキストとデータ マイニングをサポートするために出版社のシステムから研究論文を集約: 相互運用性が意図的に欠如しているかどうか? 参加: INTEROP2016 (2016)。

Herrmannova, D.、Pontika, N.、Knoth, P. 著者は時間通りに寄稿していますか? オープンアクセスポリシーコンプライアンスの追跡。 デジタル図書館に関する 2019 ACM/IEEE 合同会議の議事録(イリノイ州アーバナ・シャンペーン、2019 年)。

Cancellieri, M.、Pontika, N.、Pearce, S.、Anastasiou, L.、Knoth, P. マイクロサービスを使用したスケーラブルなデジタル ライブラリ取り込みパイプラインの構築。 第 11 回メタデータおよびセマンティクス研究に関する国際会議 (MTSR 2017) の議事録: 275–285。 スプリンガー (2017)。

Knoth, P. オープン アクセス メタデータからオープン アクセス コンテンツへ: オープン アクセス コンテンツの可視性を高めるための 2 つの原則。 カナダ、プリンスエドワード島、シャーロットタウンで開催された 2013 年オープン リポジトリ カンファレンスの議事録 (2013 年)。

ノース、P. Cancellieri, M. & Klein, M. OAI-PMH と ResourceSync のパフォーマンスの比較。 ドイツ、ハンブルクで開催された 2019 年オープン リポジトリ カンファレンスの議事録 (2019 年)。

Kapidakis, S. メタデータ収集のための Open Archive Initiative プロトコルを使用して収集されたコレクションのメタデータ合成と更新。 オープンな知識のためのデジタル ライブラリ。 TPDL 2018。コンピュータサイエンスの講義ノート 11057、16–31 (2018)。

Google スカラー

Knoth, P. および Zdrahal, Z. CORE: オープン アクセスを支える 3 つのアクセス レベル。 D-Lib マガジン 18 (11/12) (2012)。

ハスルホーファー、B.ら。 ResourceSync: サイトマップを利用してリソースを同期します。 第 22 回ワールド ワイド ウェブ国際会議議事録: 11 ~ 14 (2013)。

Khabsa, M. & Giles, CL 公共ウェブ上の学術文書の数。 PLOS One 9(5)、e93949 (2014)。

論文 ADS PubMed PubMed Central Google Scholar

Charalampous, A. & Knoth, P. デジタル ライブラリでの検索と推奨を強化するための文書タイプの分類。 デジタル図書館の研究と先端技術。 TPDL 2017。コンピュータ サイエンスの講義ノート 10450、181–192 (2017)。

Google スカラー

Rosvall, M. & Bergstrom, CT 複雑なネットワーク上のランダム ウォークのマップは、コミュニティ構造を明らかにします。 米国科学アカデミー紀要 105(4)、1118–1123 (2008)。

記事 ADS CAS Google Scholar

D'Angelo, CA & Abramo, G. ハードサイエンスの 192 研究分野における出版率。 第 15 回 ISSI 会議議事録: 915–925 (2015)。

アンマー、W.ら。 Semantic Sc​​holar での文献グラフの構築。 計算言語学協会北米支部の 2018 年会議議事録: 人間言語技術、第 3 巻 (業界論文): 84–91 (2018)。

Knoth、P.ら。 リポジトリ向けの効果的なリサーチ推奨システムを目指して。 オープン リポジトリ、ボーズマン、米国 (2017)。

Pride, D. & Knoth, P. 引用分類に対する権威あるアプローチ。 2020 ACM/IEEE Joint Conference on Digital Libraries (JCDL 2020)、Virtual-China (2020) の議事録。

Newman, S. マイクロサービスの構築: きめ細かいシステムの設計。 オライリー・メディア社 (2015)。

リー、Hら。 CiteSeer χ: スケーラブルな自律科学デジタル ライブラリ。 第 1 回スケーラブル情報システム国際会議 ACM の議事録 (2006 年)。

Bastian, H.、Glasziou, P. & Chalmers, I. 1 日 75 件の試験と 11 件の系統的レビュー: どうやって追いつくのでしょうか? PLoS 医学 7(9)、e1000326 (2010)。

論文 PubMed PubMed Central Google Scholar

ショジャニア、KGら。 システマティックレビューはどれくらいで時代遅れになってしまいますか? 生存分析。 内科学年報 147(4)、224–233 (2007)。

論文 PubMed Google Scholar

Tsafnat、G. et al. システマティックレビュー自動化テクノロジー。 システマティックレビュー 3(1)、74 (2014)。

論文 PubMed PubMed Central Google Scholar

ハージング、A.-W. & アラカンガス、サウスカロライナ州。Microsoft Academic は 1 周年を迎えました。フェニックスは巣立つ準備ができています。 サイエントメトリクス 112(3)、1887–1894 (2017)。

記事 Google Scholar

リファレンスをダウンロードする

私たちは、Open University との数多くの助成金およびサービス契約に基づく Jisc の寛大な支援に感謝したいと思います。 これらには、プロジェクト CORE、ServiceCORE、UK Aggregation (1 および 2)、および Jisc が NWO と共同出資した DiggiCORE が含まれます。 2015 年以来、CORE は、The Open University との Jisc Digital Services-CORE (JDSCORE) サービス契約に基づいて 3 回にわたってサポートされてきました。 Jisc 内では、主に CORE プロジェクト マネージャーの Andy McGregor、Alastair Dunning、Neil Jacobs、および Balviar Notay に感謝したいと思います。 また、CORE に貢献した資金、つまり OpenMinTeD (739563) と EOSC Pilot (654021) に対して欧州委員会に感謝します。 CORE に貢献してくれたが原稿の著者ではない現在の CORE チーム メンバー全員、つまり Valeriy Budko、Ekaterine Chkhaidze、Viktoriia Pavlenko、Halyna Torachylo、Andrew Vasilyev、Anton Zhuk に感謝の意を表したいと思います。 私たちは、長年にわたって CORE に貢献してきたすべての過去の CORE チーム メンバー、すなわち Lucas Anastasiou、Giorgio Basile、Aristotelis Charalampous、Josef Harg、Drahomira Herrmannova、Alexander Huba、Bikash Gyawali、Tomas Korec、Dominika Koroncziova、に感謝の意を表したいと思います。マグダレナ・クリギエロワ、カトリーヌ・クリアヴェッツ、セルゲイ・ミサク、ヤクブ・ノボトニー、ガブリエラ・パベル、ヴォイテク・ロボトカ、スヴェトラーナ・ルミャンセワ、マリア・タラシウク、イアン・ティンドル、ベサニー・ウォーカーとヴィクトル・ヤクビフ、ズデネク・ズドラハルとアンナ・ゼリンスカ。

ドラホミラ・ハーマン

現在の住所: オークリッジ国立研究所オークリッジ、オークリッジ、テネシー州、米国

ナレッジメディア研究所、オープンユニバーシティウォルトンホール、ミルトンキーンズ、英国

ペトル・ノース、ドラホミラ・ヘルマンノヴァ、マッテオ・カンチェリエリ、ルーカス・アナスタシオ、ナンシー・ポンティカ、サミュエル・ピアース、ビカシュ・ギャワリ、デヴィッド・プライド

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PK は CORE の創設者であり責任者です。 彼はこのアイデアを発案し、2011 年の開始以来プロジェクト リーダーを務めています。彼は CORE の最初のバージョンを調査して作成し、資金を獲得し、チームを構築し、すべての研究開発を管理および主導してきました。 MC、LA、SP、PK は、CHARS、収集スケジューラ、OAI-PMH コンテンツ収集方法を含むシステムの重要な部分を設計し、すべての技術的詳細を検討し、実装しました。 すべての著者はシステムの保守、運用、改善に貢献しました。 DH は PKDP との協議に基づいて原稿の初期バージョンを作成し、PK は LA と NPDH からの追加情報を加えて最終原稿を書き、MC と LA が論文のデータ分析を実行し、DH が図を作成しました。 DH、DP、BG、LA は、PK の指示に従い、PK の直接監督の下、CORE に関連する研究活動とタスクに参加しました。

ペトル・ノット氏への通信。

著者らは競合する利害関係を宣言していません。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Knoth、P.、Herrmannova、D.、Cancellieri、M. 他。 CORE: オープンアクセス論文のグローバル集約サービス。 Sci Data 10、366 (2023)。 https://doi.org/10.1038/s41597-023-02208-w

引用をダウンロード

受信日: 2021 年 5 月 18 日

受理日: 2023 年 5 月 3 日

公開日: 2023 年 6 月 7 日

DOI: https://doi.org/10.1038/s41597-023-02208-w

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供