Update README.md

ThSrAd · web-flow · commit e391b7e19864 · 2020-10-07T20:53:22.000-05:00
diff --git a/README.md b/README.md
@@ -13,11 +13,11 @@ over large datasets
 <hr>
 
 ## About dataset
-MovieLens data sets were collected by the GroupLens Research Project at the University of Minnesota.
-This data set consists of
-100,000 ratings (1-5) from 943 users upon 1682 movies.
-Each user has rated at least 20 movies.
-Simple demographic info for the users (age, gender, occupation, zip)
+MovieLens data sets were collected by the GroupLens Research Project at the University of Minnesota.</br>
+This data set consists of</br>
+100,000 ratings (1-5) from 943 users upon 1682 movies</br>
+Each user has rated at least 20 movies</br>
+Simple demographic info for the users (age, gender, occupation, zip)</br>
 
 Dataset Link: https://grouplens.org/datasets/movielens/1m/
 <hr>
@@ -30,59 +30,44 @@ Cloudera Quickstart VM, Winscp, Putty,
 ## Extract and Transform the Data
 * Import the ml-1m file to clouderavm through winscp
 
-* File is delimited by :: . Change the delimiters to comma formatted, (csv) </br>
+* File is delimited by :: . Change the delimiters to comma formatted, (csv)
 
 ![image](https://user-images.githubusercontent.com/69738890/95400797-2fea3f80-08d1-11eb-94e9-f73a742cfd17.png)
 
-</br>
-<code>
-sed -i 's/::/,/g' ml-1m/movies.dat</br>
-sed -i 's/::/,/g' ml-1m/users.dat</br>
-sed -i 's/::/,/g' ml-1m/ratings.dat </br>
-</code>
-</br>
+sed -i 's/::/,/g' ml-1m/movies.dat 
 
-![image](https://user-images.githubusercontent.com/69738890/95400931-8c4d5f00-08d1-11eb-8425-fcbecbb55146.png)
+sed -i 's/::/,/g' ml-1m/users.dat
 
-</br>
+sed -i 's/::/,/g' ml-1m/ratings.dat
 
-* Rename file format from .dat to .csv </br>
+![image](https://user-images.githubusercontent.com/69738890/95400931-8c4d5f00-08d1-11eb-8425-fcbecbb55146.png)
 
-<code>
-mv ml-1m/movies.dat /ml-1m/movies.csv </br>
-mv ml-1m/ratings.dat /ml-1m/ratings.csv </br>
-mv ml-1m/users.dat /ml-1m/users.csv </br>
-</code>
-</br>
+* Rename file format from .dat to .csv
 
-* Move the data into HDFS folder Movie_Lens,folder structure Movie_Lens/ml-1m </br>
+<code> mv ml-1m/movies.dat /ml-1m/movies.csv </code>
+<code> mv ml-1m/ratings.dat /ml-1m/ratings.csv </code>
+<code> mv ml-1m/users.dat /ml-1m/users.csv </code>
 
-![image](https://user-images.githubusercontent.com/69738890/95402279-e7348580-08d4-11eb-9eb4-401619535409.png)
+* Move the data into HDFS folder Movie_Lens,folder structure Movie_Lens/ml-1m
 
-</br>
+![image](https://user-images.githubusercontent.com/69738890/95402279-e7348580-08d4-11eb-9eb4-401619535409.png)
 
 * Create movies.sql,ratings.sql,users.sql</br>
-<code>
-nano movies.sql </br>
-nano ratings.sql </br>
-nano users.sql </br> 
-</code>
+<code> nano movies.sql </code>
+<code> nano ratings.sql </code>
+<code> nano users.sql </code>
 
-Copy SQL code from the repo files movies.sql,ratings.sql,users.sql </br>
-<code></br>
-hive -f users.sql</br>
-</code></br>
+Copy SQL code from the repo files movies.sql,ratings.sql,users.sql
+<code> hive -f users.sql </code>
 
 ![image](https://user-images.githubusercontent.com/69738890/95402545-a1c48800-08d5-11eb-9b59-3a7051eaea5c.png)
 
-</br>
-
 OR manually execute the commands in the hive shell as shown below
 
 ![image](https://user-images.githubusercontent.com/69738890/95404381-7bedb200-08da-11eb-8aee-cb0f2d432d13.png)
 
 # EXPLORED QUESTIONS
-Top 10 viewed movies
+##### Top 10 viewed movies</br>
 <CODE>
 SELECT movies.MovieID,movies.Title,COUNT(DISTINCT ratings.UserID) as views
 FROM movies JOIN ratings ON (movies.MovieID = ratings.MovieID)
@@ -95,7 +80,7 @@ LIMIT 10;
 ![image](https://user-images.githubusercontent.com/69738890/95404826-bb68ce00-08db-11eb-94c1-bbf7bca70d1c.png)
 
 </BR>
-Top 20 rated movies having at least 40 views
+##### Top 20 rated movies having at least 40 views</br>
 <CODE>
 SELECT movies.MovieID,movies.Title,AVG(ratings.Rating) as rtg,COUNT(DISTINCT ratings.UserID) as views
 FROM movies JOIN ratings ON (movies.MovieID = ratings.MovieID)
@@ -121,10 +106,12 @@ create view movie_by_genre as select movieid, genre from (select movieid, split(
  
 Find top 3 genres for each user</br>
 <CODE>
-create temporary table movie_by_user_genre as select t1.*, t2.rating,t2.userid from movie_by_genre t1 left join ratings t2 on t1.movieid = t2.movieid where t2.rating >= 4;</br>
-create temporary table user_by_genre_totalrating as select userid, genre, sum(rating) total_rating from movie_by_user_genre group by userid, genre; </br>
+create temporary table movie_by_user_genre as select t1.*, t2.rating,t2.userid from movie_by_genre t1 left join ratings t2 on t1.movieid = t2.movieid where t2.rating >= 4;
+ 
+create temporary table user_by_genre_totalrating as select userid, genre, sum(rating) total_rating from movie_by_user_genre group by userid, genre;
+
 select * from 
-(select userid, genre, row_number() over (partition by userid order by total_rating desc) row_num from user_by_genre_totalrating) t where t.row_num <= 3
+(select userid, genre, row_number() over (partition by userid order by total_rating desc) row_num from user_by_genre_totalrating) t where t.row_num <= 3;
 </CODE>
 </br>