fix: rebuild formats from yt-dlp data

makes yattee and freetube work
2025-06-27 23:02:57 +02:00
parent 837567f8c8
commit 4e066e4b23
3 changed files with 125 additions and 8 deletions
--- a/ythdd_api_v1.py
+++ b/ythdd_api_v1.py
@@ -105,7 +105,7 @@ def hot(data):
 			# try to get the data
 			try:
 				started = time.time()
-				extracted_dict = ythdd_extractor.extract(url_lookup[data[1]] + videoId, getcomments=getcomments, maxcomments=comment_count)
+				extracted_dict = ythdd_extractor.extract(url_lookup[data[1]] + videoId, getcomments=getcomments, maxcomments=comment_count, manifest_fix=True)
 				extracted_dict["took"] = time.time() - started
 				return 200, "OK", extracted_dict
 			except Exception as e:
--- a/ythdd_extractor.py
+++ b/ythdd_extractor.py
@@ -13,6 +13,11 @@ ytdl_opts = {
 		"default": "%(id)s.%(ext)s",
 		"chapter": "%(id)s.%(ext)s_%(section_number)03d_%(section_title)s.%(ext)s"
 	},
+	"extractor_args": {
+		"youtube": {
+				"formats": ["dashy"]
+			}
+	},
 	"simulate": True
 }

@@ -123,7 +128,7 @@ web_context_dict = {
    }
 }

-def extract(url: str, getcomments=False, maxcomments=""):
+def extract(url: str, getcomments=False, maxcomments="", manifest_fix=False):
 	# TODO: check user-agent and cookiefile

 	if ythdd_globals.config['extractor']['user-agent']:
@@ -137,9 +142,12 @@ def extract(url: str, getcomments=False, maxcomments=""):
 	if getcomments:
 		ytdl_opts['getcomments'] = True
 	if maxcomments:
-		ytdl_opts['extractor_args'] = {'youtube': {'max_comments': [maxcomments, "all", "all", "all"]}}
+		ytdl_opts['extractor_args']['youtube']['max_comments'] = [maxcomments, "all", "all", "all"]
+	if manifest_fix:
+		# https://github.com/yt-dlp/yt-dlp/issues/11952#issuecomment-2565802294
+		ytdl_opts['extractor_args']['youtube']['player_client'] = ['default', 'web_safari']
 	with yt_dlp.YoutubeDL(ytdl_opts) as ytdl:
-		result = ytdl.extract_info(url, download=False)
+		result = ytdl.sanitize_info(ytdl.extract_info(url, download=False))
 	return result

 def WEBrelated(url: str):
@@ -183,6 +191,19 @@ def WEBextractSinglePage(uri: str):

 	return {'ec1': extracted_json1, 'ec2': extracted_json2, 'took': end_time - start_time}

+def paramsFromUrl(url: str) -> dict:
+	# Returns a dictionary of params from a given URL.
+	split_list = url.split("&")
+	params = {}
+	
+	for num, string in enumerate(split_list):
+		if num == 0:
+			string  = string[string.find("?") + 1:]
+		key, value  = string.split("=")
+		params[key] = value
+
+	return params
+
 def IOSextract(uri: str):

 	start = time.time()
--- a/ythdd_inv_tl.py
+++ b/ythdd_inv_tl.py
@@ -227,6 +227,94 @@ def rebuildFormats(data):

 	return result, formatStreams

+def rebuildFormatsFromYtdlpApi(ydata: dict):
+	# Rebuild invidious-compatible formats from yt-dlp's output (ydata)
+	
+	adaptive_formats = []
+	format_streams   = []
+
+	for stream in safeTraverse(ydata, ["formats"], default=[]):
+
+		if safeTraverse(stream, ["protocol"], default="storyboard") not in ("http_dash_segments"):
+			continue
+
+		newRow = {}
+		# Add from ...'s ... to ... as ...
+		newRow["bitrate"]         = str(int(safeTraverse(stream, ["tbr"], default=0) * 1000))
+		newRow["url"]             = safeTraverse(stream, ["url"])
+		newRow["itag"]            = safeTraverse(stream, ["format_id"])
+		params                    = ythdd_extractor.paramsFromUrl(newRow["url"])
+
+		vcodec = safeTraverse(stream, ["vcodec"], default="none")
+		acodec = safeTraverse(stream, ["acodec"], default="none")
+		if vcodec == "none" and acodec == "none":
+			continue
+
+		if safeTraverse(stream, ["acodec"]) != "none":
+			# audio-only track
+			type = safeTraverse(stream, ["audio_ext"], default=None)
+			if type is None:
+				type = "mp4"
+			newRow[           "type"] = "audio/" + type
+			newRow[   "audioQuality"] = str(safeTraverse(stream, ["abr"], default=128))
+			newRow["audioSampleRate"] = str(safeTraverse(stream, ["asr"], default=44100))
+			newRow[  "audioChannels"] = safeTraverse(stream, ["audio_channels"])
+			newRow[   "qualityLabel"] = newRow["audioQuality"] + "kbps"
+		if safeTraverse(stream, ["vcodec"]) != "none":
+			# either video-only or video+audio
+			type = safeTraverse(stream, ["video_ext"], default=None)
+			if type is None:
+				type = "mp4"
+			height = str(safeTraverse(stream, ["height"], default=0))
+			width  = str(safeTraverse(stream, [ "width"], default=0))
+			newRow[           "type"] = "video/" + type
+			newRow[     "resolution"] = height + "p"
+			newRow[            "fps"] = safeTraverse(stream, ["fps"], default=30)
+			newRow[   "qualityLabel"] = height + "p" + str(int(newRow['fps'])) * (newRow["fps"] > 30) # also a placeholder
+			newRow[           "size"] = width  + "x" + height
+
+		newRow["clen"]            = safeTraverse(params, ["clen"], default=safeTraverse(stream, ["filesize"], default="0"))
+		newRow["lmt"]             = safeTraverse(params,  ["lmt"], default="0")
+
+		if vcodec != "none" and acodec != "none":
+			# 360p stream
+			format_streams.append(newRow.copy())
+		if vcodec != "none" or acodec != "none":
+			adaptive_formats.append(newRow.copy())
+
+
+		# {
+		#	"url": data[best_bitrate_video]['url'],
+		#	"itag": str(data[best_bitrate_video]['itag']),
+		#	"type": data[best_bitrate_video]['mimeType'],
+		#	"quality": data[best_bitrate_video]['quality'],
+		#	"bitrate": str(data[best_bitrate_video]['averageBitrate']),
+		#	"fps": data[best_bitrate_video]['fps'],
+		#	"size": "", # workaround for clipious, which requires ANYTHING to be passed, or else it will throw and error and won't load the video
+		#	"resolution": str(invidious_formats.FORMATS[data[best_bitrate_video]['itag']]['height']) + "p",
+		#	"qualityLabel": str(invidious_formats.FORMATS[data[best_bitrate_video]['itag']]['height']) + "p",
+		#	"container": invidious_formats.FORMATS[data[best_bitrate_video]['itag']]['ext'],
+		#	"encoding": invidious_formats.FORMATS[data[best_bitrate_video]['itag']]['vcodec']
+		# }
+
+		# {
+		# 	"audioChannels": data[best_bitrate_audio]['audioChannels'],
+		# 	"init": result[best_bitrate_audio]['init'],
+		# 	"index": result[best_bitrate_audio]['index'],
+		# 	"bitrate": str(data[best_bitrate_audio]['averageBitrate']),
+		# 	"url": data[best_bitrate_audio]['url'],
+		# 	"itag": str(data[best_bitrate_audio]['itag']),
+		# 	"type": data[best_bitrate_audio]['mimeType'],
+		# 	"clen": result[best_bitrate_audio]['clen'],
+		# 	"lmt": result[best_bitrate_audio]['lmt'],
+		# 	"projectionType": result[best_bitrate_audio]['projectionType'],
+		# 	"audioQuality": result[best_bitrate_audio]['audioQuality'],
+		# 	"audioSampleRate": result[best_bitrate_audio]['audioSampleRate'],
+		# 	"qualityLabel": "audio"
+		# }
+
+	return adaptive_formats, format_streams
+
 def videos(data):
 	# an attempt on a faithful rewrite of
 	# https://github.com/iv-org/invidious/blob/master/src/invidious/videos/parser.cr
@@ -247,7 +335,7 @@ def videos(data):

 	time_start = time()

-	ydata = ythdd_extractor.extract(data[3])
+	ydata = ythdd_extractor.extract(data[3], manifest_fix=True)
 	wdata = ythdd_extractor.WEBextractSinglePage(data[3])

 	#return send(200, {'ydata': ydata, 'wdata': wdata})
@@ -309,7 +397,9 @@ def videos(data):
 		related_video['viewCountText']      = safeTraverse(y, ['shortViewCountText', 'simpleText'], default="0").split(" ")[0]
 		related_views                       = 0
 		if related_views_text:
-			related_views                   = int("".join([z for z in related_views_text if 48 <= ord(z) and ord(z) <= 57]))
+			if related_views_text.lower() == "no":
+				related_views_text = "0"
+			related_views                   = int("0" + "".join([z for z in related_views_text if 48 <= ord(z) and ord(z) <= 57]))
 			related_views_text              = related_views_text.split(" ")[0]
 		related_video['viewCount']          = related_views
 		related.append(related_video)
@@ -346,7 +436,9 @@ def videos(data):
 	# 			subs  *= magnitude[x]
 	subs               = ydata['channel_follower_count']
 	channel_about_info = ythdd_extractor.browseAbout(ucid)
-	author_thumbnail   = ythdd_extractor.getChannelAvatar(channel_about_info)
+	author_thumbnail   = [ # must be a list
+		ythdd_extractor.getChannelAvatar(channel_about_info)
+	] * 3 # yes really
 	# for x in author_thumbnail:
 	# 	# rewrite to use views.py
 	# 	x['url'] = ythdd_globals.translateLinks(x['url'])
@@ -357,6 +449,7 @@ def videos(data):

 	format_streams     = []
 	# adaptive_formats, format_streams = rebuildFormats(adaptive_formats)
+	adaptive_formats, format_streams = rebuildFormatsFromYtdlpApi(ydata)

 	if live_now:
 		video_type = "livestream"
@@ -417,7 +510,7 @@ def videos(data):
 		"premiereTimestamp": premiere_timestamp,

 		#"hlsUrl": hls_url, # broken after a change in iOS player
-		#"adaptiveFormats": adaptive_formats, # same as hlsUrl
+		"adaptiveFormats": adaptive_formats, # same as hlsUrl
 		"formatStreams": format_streams, # very bare bones, empty actually xD
 		"captions": [], # not implemented
 	# "captions": [
@@ -440,6 +533,9 @@ def videos(data):
 	}
 	#'''

+	if ythdd_globals.config['general']['debug']:
+		response["ydata"] = ydata
+
 	# for debugging:
 	#return send(200, ythdd_extractor.WEBextractSinglePage(data[3]))
 	#return send(200, ythdd_extractor.IOSextract(data[3]))