알고리즘 문제 풀이


백준 알고리즘 10866번


캐글 - Box Office 영화 수익 예측


Description

In this dataset, you are provided with 7398 movies and a variety of metadata obtained from The Movie Database (TMDB). Movies are labeled with id. Data points include cast, crew, plot keywords, budget, posters, release dates, languages, production companies, and countries. 7398개의 영화 데이터와 TMDB로부터 얻은 다양한 메타데이터가 주어진다. 영화는 id로 라벨링된다. 출연진, 크루, 줄거리 키워드, 예산, 포스터, 출시일, 언어, 제작 회사 및 국가 등의 데이터 포인트를 포함한다.

You are predicting the worldwide revenue for 4398 movies in the test file. 테스트 파일에서 4398개의 영화에 대한 세계적인 수익을 예측해야 한다.

Note - many movies are remade over the years, therefore it may seem like multiple instance of a movie may appear in the data, however they are different and should be considered separate movies. In addition, some movies may share a title, but be entirely unrelated. 몇 년에 걸쳐 리메이크되는 영화가 많다. 데이터에서 같은 객체가 여러 개인 것처럼 보이지만, 이들은 별개의 영화로 생각해야 한다. 추가로, 어떤 영화들은 제목은 같으나, 관련은 없다. 이 역시 별개로 생각해야 한다.


Data Dictionary

알 수 없는 데이터 : belongs_to_collection, popularity(관객 수? 단위는?), revenue(수익, 단위는?)

  • belongs_to_collection ,
  • budget : 예산,
  • genres : 장르 ({id(장르 식별자) : drame(장르 종류)}),
  • homepage : 홈페이지 주소,
  • imdb_id : 인터넷 영화 데이터베이스 식별자 ,
  • original_language : 오리지날 언어,
  • original_title : 원래 타이틀(자국 언어), // 수출될 때는 영어로 번역되니 상관없을 듯
  • overview : 줄거리,
  • popularity : 관객 수? (단위는?),
  • poster_path : 포스터 이미지주소,
  • production_companies : 제작사,
  • production_countries : 제작 국가,
  • release_date : 출시일,
  • runtime : 상영 시간,
  • spoken_languages : 발화 언어,
  • status : 상영 중 혹은 상영 전,
  • tagline : 캐치 프레이즈,
  • title : 영어 타이틀,
  • Keywords : 키워드(액션, 저널리즘, 재즈 등),
  • cast : 캐릭터, 배우
  • crew : 감독, 프로듀서 등 (gender:2:남성)
  • revenue : 수입 (단위는?)

문제 : feature engineering을 하려는데 dictionary처럼 보이는 값들이 문자열로 인식된다.