対象の非構造データ
全国の学校・スクールのホームページのHTMLデータ(約8800万ページ)
作成・更新・付与したい分類、カテゴリ
学部・学科・コースのカテゴリマスタを作成、更新
学校データに教育ジャンルのカテゴリマスタ番号を自動で割り振り
導入の背景
全国には様々な学校、スクールが存在しているが、自社の目的を達成できるレベルで網羅的にまとめられているデータが存在していない。そのため社内では編集スタッフや営業スタッフが属人的に、学校のホームページなどを確認して、情報をまとめている作業を行っていた。大学などは常に新しい学科やコースができるだけでなく、「学部」などのくくりも「学群」など、新しいものができることもあり、変化の幅が大きいため、例年、同じことを行っているだけでは不適切なマスタとなってしまう。そのため、適切な学校、教育ジャンルのマスタを作成するためには、一定以上の教育業界における知識が必要となり、担当できるスタッフも限られる上に、対象学校数が多いため、学校マスタ、教育カテゴリマスタの最新版の検討、実行に時間がかかることが課題となっていた。
構造化内容
公的機関、研究機関、学校のホームページの非構造なHTMLデータを解析して、最新の学術体系を構造化。最新の教育分野マスタの項目ごとにパターンを作成し、学校で教えられている内容を評価、データの自動割り振りを実施
教育ジャンル、学術体系などは、教育関連の研究を行っている公的機関や研究機関、大学などが新しい試みを行い、最終的に普及していくという流れがある。そのため、影響を与える元となっている機関の発表データや資料を継続的に収集し、新しい概念、分野を抽出、これまでの教育ジャンルとの関係性を距離で計算して算出し、新しいマスタを作成。確定版とする前に、人の目によって確認を行い、編集方針に沿わないものは不適切であることをシステムにフィードバックし、より適切なカテゴリ分けを学習させ、精度を高めるシステムも導入。マスタの最新版ができた後、各学校が提供している学部、学科、コース、授業などの内容をホームページデータから解析して、該当する教育ジャンルを割り振りを行った。